IBM公布了其完整的6.48 TB LLM训练数据集

作者:小编 更新时间2024-07-05 08:57:17 点击数:

IBM 于五月份开源了适用于企业应用场景的 Granite13B LLM 模型。现在,IBM 的 AI 平台产品副总裁阿曼德・鲁伊兹(Armand Ruiz)公开了用于训练 Granite13B 的全面6.48TB 数据集的完整内容。

这个数据集经过严格的预处理后,缩减为2.07TB,减少了68%。鲁伊兹强调,这一步骤对于确保高质量、无偏见、符合伦理和法律的数据集,以满足企业应用场景需求至关重要。

数据集由多个来源精心策划而来,包括:

- arXiv:超过240万篇科学论文预印本。

- Common Crawl:开放的网络抓取数据库。

- DeepMind Mathematics:数学问答对。

- Free Law:来自美国法院的公共领域法律意见。

- GitHub Clean:来自 CodeParrot 的代码数据。

- Hacker News:2007-2018年的计算机科学和企业家新闻。

- OpenWeb Text:OpenAI 的 Web Text 语料库的开源版本。

- Project Gutenberg(PG-19):专注于早期作品的免费电子书。

- Pubmed Central:生物医学和生命科学论文。

- SEC Filings:美国证券交易委员会(SEC)的10-K/Q 提交文件(1934-2022年)。

- Stack Exchange:Stack Exchange 网络上的用户贡献内容。

- USPTO:1975年至2023年5月间授予的美国专利。

- Webhose:将非结构化网络内容转换为机器可读数据。

- Wikimedia:八个英文维基媒体项目。

预处理流程包括文本提取、去重、语言识别、句子分割、仇恨、滥用和粗话标注、文档质量标注、URL 屏蔽标注、过滤和标记化。

这些步骤涉及基于设定阈值的标注和过滤,确保最终数据集对模型训练具有最高质量。

IBM 发布了 Granite 代码模型的四个版本,参数范围从30亿到340亿。这些模型已在一系列基准测试中进行了测试,并在许多任务中胜过其他可比模型,如 Code Llama 和 Llama3。