突破边界:AI2发布Tülu 3系列模型,逼近GPT-4o mini的巅峰体验!


突破边界:AI2发布Tülu 3系列模型,逼近GPT-4o mini的巅峰体验!

原标题:73页,开源后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini
文章来源:新智元
内容字数:7241字

开头

近期,Allen Institute for AI(AI2)推出了Tülu 3系列模型,这是一套开源的最先进语言模型性能接近于闭源的GPT-4o-mini等模型。Tülu 3致力于推动开源模型后训练技术发展,提供了全面的数据代码和评估框架。

1. Tülu 3模型概述

Tülu 3包含多种开源资源,包括数据、代码和训练配方。与仅进行预训练的模型相比,这些模型经过后训练,能够有效遵循人类指令,降低输出有毒信息的风险。后训练包括指令微调和从人类反馈中学习,以适应多样化的下游应用。

2. 后训练的复杂性

后训练方法的复杂性不断提高,涉及多轮训练和不同的训练算法。然而,开源模型的性能仍难以与闭源模型相媲美。Tülu 3的发布缩小了这一差距,并在LMSYS的ChatBotArena上展现了其出色的性能。

3. Tülu 3的训练过程

Tülu 3的训练过程分为四个阶段:数据构造、监督微调、偏好调整和可验证奖励强化学习(RLVR)。每个阶段都经过严格设计,以确保模型在知识召回、推理、编程等核心技能上的表现得到提升。

4. 数据构造与监督微调

在数据构造阶段,研究人员专注于核心技能,并收集高质量的人工和合成数据。监督微调阶段则使用精心挑选的提示和完成内容进行微调,以增强模型能力,同时保持其他技能的性能。

5. 偏好调整与RLVR

偏好调整阶段采用直接偏好优化(DPO)方法,研究人员通过实验确定最佳偏好数据的组合。RLVR阶段则引入了可验证奖励的方法,针对特定任务进行强化学习,展现出显著的性能改进。

6. 评估与标准化

为确保评估的可复现性与公平性,研究人员开发了统一的标准化评估套件,并开源了Open Language Model Evaluation System(OLMES)。这一系统支持广泛的模型和任务,旨在推动开源语言模型的整体评估和开发。

结尾

Tülu 3的发布标志着开源语言模型在后训练技术上的重要进展,提供了一个全面的框架,助力研究者和开发者在未来的工作中更有效地利用这些模型。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

版权声明:atcat 发表于 2024-12-11 12:04:11。
转载请注明:突破边界:AI2发布Tülu 3系列模型,逼近GPT-4o mini的巅峰体验! | 86AIGC导航

暂无评论

暂无评论...