原标题:73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
文章来源:新智元
内容字数:7241字
开头
近期,Allen Institute for AI(AI2)推出了Tülu 3系列模型,这是一套开源的最先进语言模型,性能接近于闭源的GPT-4o-mini等模型。Tülu 3致力于推动开源模型的后训练技术发展,提供了全面的数据、代码和评估框架。
1. Tülu 3模型概述
Tülu 3包含多种开源资源,包括数据、代码和训练配方。与仅进行预训练的模型相比,这些模型经过后训练,能够有效遵循人类指令,降低输出有毒信息的风险。后训练包括指令微调和从人类反馈中学习,以适应多样化的下游应用。
2. 后训练的复杂性
后训练方法的复杂性不断提高,涉及多轮训练和不同的训练算法。然而,开源模型的性能仍难以与闭源模型相媲美。Tülu 3的发布缩小了这一差距,并在LMSYS的ChatBotArena上展现了其出色的性能。
3. Tülu 3的训练过程
Tülu 3的训练过程分为四个阶段:数据构造、监督微调、偏好调整和可验证奖励强化学习(RLVR)。每个阶段都经过严格设计,以确保模型在知识召回、推理、编程等核心技能上的表现得到提升。
4. 数据构造与监督微调
在数据构造阶段,研究人员专注于核心技能,并收集高质量的人工和合成数据。监督微调阶段则使用精心挑选的提示和完成内容进行微调,以增强模型能力,同时保持其他技能的性能。
5. 偏好调整与RLVR
偏好调整阶段采用直接偏好优化(DPO)方法,研究人员通过实验确定最佳偏好数据的组合。RLVR阶段则引入了可验证奖励的方法,针对特定任务进行强化学习,展现出显著的性能改进。
6. 评估与标准化
为确保评估的可复现性与公平性,研究人员开发了统一的标准化评估套件,并开源了Open Language Model Evaluation System(OLMES)。这一系统支持广泛的模型和任务,旨在推动开源语言模型的整体评估和开发。
结尾
Tülu 3的发布标志着开源语言模型在后训练技术上的重要进展,提供了一个全面的框架,助力研究者和开发者在未来的工作中更有效地利用这些模型。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。