Nemotron-CC – 英伟达推出的大型预训练数据集
Nemotron-CC是什么
Nemotron-CC是NVIDIA团队开发的一款大型预训练数据集,旨在将Common Crawl的数据转化为适合长序列模型训练的高质量语料。该数据集通过结合分类器集成、合成数据重述和降低对启发式过滤器的依赖等技术,成功实现了数据量与质量之间的优化平衡。Nemotron-CC包含6.3万亿个tokens,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。在短期(1T tokens)和长期(15T tokens)训练中,Nemotron-CC展现出卓越的性能,尤其在MMLU等任务上,相比DCLM和Llama 3.1模型,显著提高了模型的准确率。Nemotron-CC的推出为大型语言模型的训练提供了更加丰富和多样化的数据资源。
Nemotron-CC的主要功能
- 提供高质量的预训练数据集:Nemotron-CC为大型语言模型(LLMs)提供了高品质和大规模的预训练数据,特别适合于长序列训练,满足15T tokens的需求。
- 优化数据量与质量:在保证数据质量的基础上,显著增加数据集的规模,包含更多独特的真实tokens,从而提升模型在长序列训练中的表现。
- 助力模型性能提升:研究表明,利用Nemotron-CC训练的模型在多项基准测试中表现出色,特别是在MMLU等任务上,相较于其他现有数据集,能够显著提高模型的准确性。
Nemotron-CC的技术原理
- 优化文本提取:采用Justext作为HTML到文本的提取工具,以其在高质量tokens提取中的优越表现,有效提升了数据集的初始质量。
- 基于模型的质量标记:
- 分类器集成:构建了三个具有不同高质量偏好的质量分类器,通过集成这些分类器,为所有文档打分,并依据质量得分对爬取的语料进行分类。
- 质量标签分配:进一步对细粒度的质量得分进行聚类,划分为五个下游任务的质量类别,基于连续预训练和任务性能评估,为每个类别分配更为贴近实际性能的质量标签。
- 合成数据生成:
- 数据集整合:
Nemotron-CC的项目地址
- 项目官网:https://developer.nvidia.com/blog/announcing-nemotron-cc
- arXiv技术论文:https://arxiv.org/pdf/2412.02595
Nemotron-CC的应用场景
- 预训练大型语言模型:适用于长序列训练(如15T tokens),提升模型在复杂任务中的表现。
- 微调与特定任务适应:便于模型在多任务学习和特定领域中快速适应,提升任务完成度。
- 文本生成任务:用于生成高质量的文本,如新闻报道、故事创作,并提升对话系统的自然流畅性。
- 研究与开发:促进模型架构和训练方法的探索,提供基准测试资源以支持研究。
- 教育与培训:生成教育资源,辅助语言学习,丰富教育内容的多样性。
暂无评论...