Nemotron-CC

Nemotron-CC – 英伟达推出的大型预训练 数据集

Nemotron-CC是什么

Nemotron-CC是NVIDIA团队开发的一款大型预训练数据集，旨在将Common Crawl的数据转化为适合长序列模型训练的高质量语料。该数据集通过结合分类器集成、合成数据重述和降低对启发式过滤器的依赖等技术，成功实现了数据量与质量之间的优化平衡。Nemotron-CC包含6.3万亿个tokens，其中4.4万亿为全球去重的原始tokens，1.9万亿为合成生成的tokens。在短期（1T tokens）和长期（15T tokens）训练中，Nemotron-CC展现出卓越的性能，尤其在MMLU等任务上，相比DCLM和Llama 3.1模型，显著提高了模型的准确率。Nemotron-CC的推出为大型语言模型的训练提供了更加丰富和多样化的数据资源。

Nemotron-CC的主要功能

提供高质量的预训练数据集：Nemotron-CC为大型语言模型（LLMs）提供了高品质和大规模的预训练数据，特别适合于长序列训练，满足15T tokens的需求。
优化数据量与质量：在保证数据质量的基础上，显著增加数据集的规模，包含更多独特的真实tokens，从而提升模型在长序列训练中的表现。
助力模型性能提升：研究表明，利用Nemotron-CC训练的模型在多项基准测试中表现出色，特别是在MMLU等任务上，相较于其他现有数据集，能够显著提高模型的准确性。

Nemotron-CC的技术原理

优化文本提取：采用Justext作为HTML到文本的提取工具，以其在高质量tokens提取中的优越表现，有效提升了数据集的初始质量。
基于模型的质量标记：
- 分类器集成：构建了三个具有不同高质量偏好的质量分类器，通过集成这些分类器，为所有文档打分，并依据质量得分对爬取的语料进行分类。
- 质量标签分配：进一步对细粒度的质量得分进行聚类，划分为五个下游任务的质量类别，基于连续预训练和任务性能评估，为每个类别分配更为贴近实际性能的质量标签。
合成数据生成：
- 低质量数据重述：针对低质量文档，通过重述减少噪声和错误，同时保留有用信息，采用Wikipedia风格的提示对低质量文档进行重述，有效降低错误率和冗余，提高文本格式化水平。
- 高质量数据扩展：对高质量文档，通过生成多样化的问答对、提取和整理知识等方式，获取更多独特的tokens，丰富数据集内容和多样性。
数据集整合：
- 大规模数据合成：利用Mistral NeMo 12B模型生成超过1.8万亿个合成tokens，其中包括从低质量文档生成的3363亿tokens和从高质量文档生成的1.5万亿tokens。
- 数据集构建：将上述技术和方法应用于Common Crawl的99个快照（CC-MAIN-2013-20至CC-MAIN-2024-30），构建了6.3万亿tokens的数据集，其中4.4万亿为全球去重的原始tokens，1.9万亿为合成生成的tokens。

Nemotron-CC的项目地址

项目官网：https://developer.nvidia.com/blog/announcing-nemotron-cc
arXiv技术论文：https://arxiv.org/pdf/2412.02595

Nemotron-CC的应用场景

预训练大型语言模型：适用于长序列训练（如15T tokens），提升模型在复杂任务中的表现。
微调与特定任务适应：便于模型在多任务学习和特定领域中快速适应，提升任务完成度。
文本生成任务：用于生成高质量的文本，如新闻报道、故事创作，并提升对话系统的自然流畅性。
研究与开发：促进模型架构和训练方法的探索，提供基准测试资源以支持研究。
教育与培训：生成教育资源，辅助语言学习，丰富教育内容的多样性。

AI工具 AI项目和框架实时监控系统数据分析与预测智能决策支持用户行为分析自动化流程优化

版权声明：atcat 发表于 2025-01-20 18:37:45。
转载请注明：Nemotron-CC | 86AIGC导航

暂无评论

暂无评论...