1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA


1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

原标题:1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME在线刷SOTA
文章来源:新智元
内容字数:4947字

清华大学提出PRIME:用少量数据提升语言模型推理能力

本文总结了清华大学、UIUC等机构研究者提出的PRIME (Process Reinforcement through IMplicit REwards) 方法,该方法通过隐式奖励进行过程强化,显著提升了语言模型推理能力,且所需训练数据远少于传统方法。

  1. 核心思想:隐式奖励与过程强化

    PRIME的核心在于利用隐式过程奖励 (Implicit PRM) 来进行强化学习 (RL)。不同于以往需要标注每个推理步骤的复杂方法,PRIME仅需在最终结果层面进行标注,即可获得过程奖励。这大大降低了数据标注成本,并提升了训练效率

  2. 数据效率的显著提升

    实验结果表明,PRIME在多个数学编程基准测试中取得了显著优于监督微调 (SFT) 和知识蒸馏等方法的成果。令人印象深刻的是,PRIME在仅使用Qwen-2.5-Math-7B模型1/10的数据量下,其性能就超越了使用全部数据的Instruct版本,甚至在部分测试中超越了GPT-4o。

  3. 训练流程:三阶段步骤

    PRIME的训练过程分为三个阶段:1. **热身阶段 (SFT):** 使用竞赛级别的数学和编程基准数据集对基础模型进行监督微调,建立初始的推理能力;2. **隐式PRM构建:** 通过收集响应水平数据并训练一个ORM (Outcome Reward Model) 来获得隐式PRM,无需标注步骤标签;3. **强化学习阶段:** 将隐式PRM与RL算法(如REINFORCE、PPO等)结合,利用过程奖励和结果奖励共同优化策略模型,进一步提升推理能力。

  4. 关键技术突破

    PRIME解决了在线RL训练中几个关键挑战:1. **密集奖励的获取:** 利用隐式PRM从结果数据中免费获得token级别的过程奖励,避免了构建复杂价值模型的困难;2. **PRM的有效初始化和在线更新:** 直接使用SFT模型初始化PRM,并通过在线更新结果标签来避免奖励和泛化问题;3. **RL训练的稳定性:** 采用在线提示过滤器,过滤掉过难或过简单的问题,提高了训练稳定性。

  5. 实验结果及结论

    实验结果表明,PRIME在多个基准测试中显著优于其他方法,且训练速度更快,方差更低。在线更新PRM的重要性也得到了验证。PRIME方法有效地利用了少量数据,取得了显著的性能提升,为低资源环境下的语言模型推理能力提升提供了新的思路。

总而言之,PRIME 提出了一种高效且有效的方法,通过巧妙地利用隐式奖励和过程强化,在极大地降低数据需求的同时,显著提升了语言模型的推理能力。该研究为未来语言模型的训练提供了新的方向,也为解决强化学习中的数据稀疏性问题提供了新的思路。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

暂无评论

暂无评论...