Nemotron-CC


Nemotron-CC – 英伟达推出的大型预训练数据

Nemotron-CC是什么

Nemotron-CC是NVIDIA团队开发的一款大型预训练数据集,旨在将Common Crawl的数据转化为适合长序列模型训练的高质量语料。该数据集通过结合分类器集成、合成数据重述和降低对启发式过滤器的依赖等技术,成功实现了数据量与质量之间的优化平衡。Nemotron-CC包含6.3万亿个tokens,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。在短期(1T tokens)和长期(15T tokens)训练中,Nemotron-CC展现出卓越的性能,尤其在MMLU等任务上,相比DCLM和Llama 3.1模型,显著提高了模型的准确率。Nemotron-CC的推出为大型语言模型的训练提供了更加丰富和多样化的数据资源

Nemotron-CC

Nemotron-CC的主要功能

  • 提供高质量的预训练数据集:Nemotron-CC为大型语言模型(LLMs)提供了高品质和大规模的预训练数据,特别适合于长序列训练,满足15T tokens的需求。
  • 优化数据量与质量:在保证数据质量的基础上,显著增加数据集的规模,包含更多独特的真实tokens,从而提升模型在长序列训练中的表现。
  • 助力模型性能提升:研究表明,利用Nemotron-CC训练的模型在多项基准测试中表现出色,特别是在MMLU等任务上,相较于其他现有数据集,能够显著提高模型的准确性。

Nemotron-CC的技术原理

  • 优化文本提取:采用Justext作为HTML到文本的提取工具,以其在高质量tokens提取中的优越表现,有效提升了数据集的初始质量。
  • 基于模型的质量标记
    • 分类器集成:构建了三个具有不同高质量偏好的质量分类器,通过集成这些分类器,为所有文档打分,并依据质量得分对爬取的语料进行分类。
    • 质量标签分配:进一步对细粒度的质量得分进行聚类,划分为五个下游任务的质量类别,基于连续预训练和任务性能评估,为每个类别分配更为贴近实际性能的质量标签。
  • 合成数据生成
    • 低质量数据重述:针对低质量文档,通过重述减少噪声和错误,同时保留有用信息,采用Wikipedia风格的提示对低质量文档进行重述,有效降低错误率和冗余,提高文本格式化水平。
    • 高质量数据扩展:对高质量文档,通过生成多样化的问答对、提取和整理知识等方式,获取更多独特的tokens,丰富数据集内容多样性
  • 数据集整合
    • 大规模数据合成:利用Mistral NeMo 12B模型生成超过1.8万亿个合成tokens,其中包括从低质量文档生成的3363亿tokens和从高质量文档生成的1.5万亿tokens。
    • 数据集构建:将上述技术和方法应用于Common Crawl的99个快照(CC-MAIN-2013-20至CC-MAIN-2024-30),构建了6.3万亿tokens的数据集,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。

Nemotron-CC的项目地址

Nemotron-CC的应用场景

  • 预训练大型语言模型:适用于长序列训练(如15T tokens),提升模型在复杂任务中的表现。
  • 微调与特定任务适应:便于模型在多任务学习和特定领域中快速适应,提升任务完成度。
  • 文本生成任务:用于生成高质量的文本,如新闻报道、故事创作,并提升对话系统的自然流畅性。
  • 研究与开发:促进模型架构和训练方法的探索,提供基准测试资源以支持研究。
  • 教育与培训:生成教育资源,辅助语言学习,丰富教育内容的多样性。
版权声明:atcat 发表于 2025-01-20 18:37:45。
转载请注明:Nemotron-CC | 86AIGC导航

暂无评论

暂无评论...