艾伦AI推出业界最大文本数据集，包含3万亿Tokens，超过Llama 2

迄今为止最大的开源文本数据集。编译|香草
编辑|李水青
智东西8月21日消息，艾伦AI研究所（AI2）于8月19日在其官方博客发布用于训练大型语言模型（LLM）的文本数据集Dolma，包含3万亿个Tokens（词例），是迄今为止最大的开放文本数据集。

▲按子集划分的Dolma数据属性概览

在AI竞争激烈的当下，大部分科技巨头都倾向于保守自家大模型开发的机密。AI2在博客中称，公司希望通过公开透明化其数据集及之后的大模型，帮助更多的研究者在此基础上进一步进行研究和开发等工作。
01.
全透明构建700亿参数大模型，2024年推出

AI2由已故微软联合创始人兼慈善家保罗·艾伦（Paul Allen）于2014年成立，致力于开展高影响力的AI研究和工程，宗旨是“AI为人类共同利益服务”（AI for the common good）。2017年，AI2推出了孵化器项目AI2 Incubator，孵化出被百度全资收购的自然语言处理公司Kitt.ai和被苹果收购的AI图像识别公司Xnor.ai等。自2023年3月以来，AI2一直在着手创建一个开放的生成语言模型AI2 OLMo（Open Language Model），旨在促进大规模自然语言处理（NLP）系统的研究。AI2称将发布在整个项目中遵循的人工制品和记录流程，以透明和开放的方式构建OLMo。OLMo将拥有700亿级别的参数规模，预计于2024年初完成。此次公布的Dolma，便是用于OLMo的数据集，其名称来源于“Data to feed OLMo’s Appetite”——为OLMo的“胃口”提供数据。AI2认为理想的数据集应该满足开放性、代表性、规模性、可复现性以及风险规避性这五个标准。像GPT-4、Claude这样的语言模型功能强大且用途广泛，但其训练数据却是保密的。AI2认为需要扭转这一趋势，让数据集可以免费使用并接受监督，也让其他研究人员有机会在此基础上建立更好版本的数据集。为了提供可复现的条件，AI2将公开在准备数据集过程中使用到的所有开发工具。

▲AI2统计的常见大模型相关属性，其中“？”表示未公开，“~”表示部分公开

尽管OpenAI和Meta等公司公布了用于构建语言模型的数据集的部分重要统计数据，但其中很多信息都被视为专有信息。除了阻碍审查和改进等原因之外，还有人猜测，这种封闭的方式可能是由于数据的获取不道德或不合法。在AI竞争激烈的背景下，大部分公司倾向于保守其模型训练过程的秘密。但对于其他研究人员来说，这使得这些数据集和模型更加不透明，难以研究或复现。
02.
保证Dolma数据集质量，AI2采取四项原则

在训练语料库时，可选择的数据非常多，其数据量几乎是一个天文数字。对此，AI2使用了四项原则来协助选择数据，分别是遵循现有做法、合理运用评估套件、倾向于协助实现核心研究方向的决策以及采取基于危害的方法来缓解风险。这四项原则内容如下：首先，通过匹配用于创建其他语言数据集的方法，使更广泛的研究界能够利用Dolma来间接研究现有的或是正在开发的LLM。其次，在做出直接影响其中一项任务的数据相关决策时，选择能够提高指标的干预措施。例如，Dolma中加入了维基百科文本，因为它能提高K-12（学前及中小学教育）科学知识任务的性能。再次，并非所有数据集决策都与基准性能有关，例如添加包含代码的文档会降低许多文本基准测试的性能。AI2倾向于为其主动或前瞻性研究加入更有用的决策。最后，通过与法律道德专家的交谈，根据其反馈评估了数据设计决策从而规避可能的风险。
03.
业界最大公开文本数据集，3万亿Tokens超Llama 2

与市面上已经公开的数据集相比，Dolma主要有两点不同。首先，它比其他开放数据集规模大很多。

▲Dolma与其他公开数据集的属性对比

由表可见，除Dolma外，目前公开数据集中数据量最大的是RedPajama，为1.2万亿Tokens，被用于Llama的训练。相比之下，Dolma的数据量是其两倍多。此外，Llama 2训练所使用的数据集为2万亿Tokens规模，但并未公开。GPT-3训练使用的数据集规模为0.4万亿。其次，它遵循AI2为AI人工制品制定的许可证ImpACT，该许可证的名称来自于AI2的四个核心价值观：影响力（Impact）、责任（Accountability）、协作（Collaboration）和透明（Transparency）。它将人工制品划分为低、中、高三个级别的风险，并规定了如何使用、安装和创建衍生品。根据许可，研究人员须遵守：1、提供联系信息，并说明Dolma的预期用途；2、公开基于Dolma创建的任何衍生产品；3、遵循ImpACT分发衍生产品；4、不将Dolma用于一系列被禁止的用途，如军事监控或生成虚假信息。
04.
结语：开放与透明为研究者提供新的探索空间

AI2发布的Dolma数据集是迄今为止最大的开放文本数据集，为训练大型语言模型提供了巨大的资源。在遵循风险规避等准则的前提下，选取了尽量多来源和种类的数据，达到3万亿Tokens级别。Dolma的公开透明化举措开创了大型数据集开源的先河，在竞争激烈的AI领域，鼓励其他研究人员在其数据集的基础上进行再研究和开发，有助于推动产业的开放性和合作性发展。来源：艾伦AI研究所官方博客（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

2023全球 AI芯片峰会预告

9月14-15日，2023全球AI芯片峰会（GACS 2023）将登陆深圳。清华大学教授、中国半导体行业协会副理事长、IEEE Fellow魏少军，AMD人工智能事业部高级总监王宏强，后摩智能联合创始人、研发副总裁陈亮，奎芯科技副总裁王晓阳，云天励飞副总裁、芯片业务线总经理李爱军、清华大学交叉信息研究院助理教授马恺声、珠海芯动力CEO李原等10+位嘉宾已确认参会和演讲。欢迎报名。

智东西
智能产业第一媒体！智东西专注报道人工智能主导的前沿技术发展，和技术应用带来的千行百业产业升级。聚焦智能变革，服务产业升级。公众号该公众号已被封禁