突破边界：AI2发布Tülu 3系列模型，逼近GPT-4o mini的巅峰体验！

原标题：73页，开源「后训练」全流程！AI2发布高质量Tülu 3系列模型，拉平闭源差距，比肩GPT-4o mini
文章来源：新智元
内容字数：7241字

近期，Allen Institute for AI（AI2）推出了Tülu 3系列模型，这是一套开源的最先进语言模型，性能接近于闭源的GPT-4o-mini等模型。Tülu 3致力于推动开源模型的后训练技术发展，提供了全面的数据、代码和评估框架。

Tülu 3包含多种开源资源，包括数据、代码和训练配方。与仅进行预训练的模型相比，这些模型经过后训练，能够有效遵循人类指令，降低输出有毒信息的风险。后训练包括指令微调和从人类反馈中学习，以适应多样化的下游应用。

后训练方法的复杂性不断提高，涉及多轮训练和不同的训练算法。然而，开源模型的性能仍难以与闭源模型相媲美。Tülu 3的发布缩小了这一差距，并在LMSYS的ChatBotArena上展现了其出色的性能。

Tülu 3的训练过程分为四个阶段：数据构造、监督微调、偏好调整和可验证奖励强化学习（RLVR）。每个阶段都经过严格设计，以确保模型在知识召回、推理、编程等核心技能上的表现得到提升。

在数据构造阶段，研究人员专注于核心技能，并收集高质量的人工和合成数据。监督微调阶段则使用精心挑选的提示和完成内容进行微调，以增强模型能力，同时保持其他技能的性能。

偏好调整阶段采用直接偏好优化（DPO）方法，研究人员通过实验确定最佳偏好数据的组合。RLVR阶段则引入了可验证奖励的方法，针对特定任务进行强化学习，展现出显著的性能改进。

为确保评估的可复现性与公平性，研究人员开发了统一的标准化评估套件，并开源了Open Language Model Evaluation System（OLMES）。这一系统支持广泛的模型和任务，旨在推动开源语言模型的整体评估和开发。

Tülu 3的发布标志着开源语言模型在后训练技术上的重要进展，提供了一个全面的框架，助力研究者和开发者在未来的工作中更有效地利用这些模型。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

暂无评论...