在Deepseek-R1-ZERO出现前,为何无人尝试放弃微调对齐,通过强化学习生成思考链推理模型?


只能说这就是时代的局限性。

在Deepseek-R1-ZERO出现前,为何无人尝试放弃微调对齐,通过强化学习生成思考链推理模型?

原标题:在Deepseek-R1-ZERO出现前,为何无人尝试放弃微调对齐,通过强化学习生成思考链推理模型
文章来源:智猩猩GenAI
内容字数:1531字

DeepSeek-R1-ZERO之前,为何鲜少有人尝试放弃微调对齐,直接用强化学习生成思考链推理模型?

本文总结了知乎用户FURUF对DeepSeek-R1-ZERO出现前,强化学习在生成思考链推理模型应用稀少原因的分析。主要观点归纳如下:

1. Let’s Verify Step by Step论文的影响

1.1 OpenAI的Let’s Verify Step by Step论文对后续研究方向产生了重大影响。该论文通过大量实验比较了PRM(Prompt-based Reasoning Methods)和ORM(Output-based Reasoning Methods)两种方法的优劣,得出PRM显著优于ORM,且PRM具有更强的分布外泛化能力结论

1.2 该结论引导了大量后续研究都基于PRM展开,忽视了ORM在强化学习中的潜在优势。实际上,在使用强化学习时,ORM由于更难被reward hacking,反而更有效。

1.3 作者认为,这篇论文及其相关工作将研究思路带偏向了PRM,阻碍了对ORM在强化学习中应用的探索。

2. 基础模型性能的不足

2.1 许多研究人员很早就尝试将强化学习应用于大型语言模型 (LLM),但由于当时的基础模型性能不足而失败。

2.2 早期的实验主要使用GPT-2、Llama-2等模型,这些模型的推理能力相对较弱,即使尝试各种强化学习算法,效果也不理想。

2.3 作者指出,这并非方法本身的问题,而是基础模型质量的限制。只有在Qwen-2.5-MATH等推理能力经过强化的“小钢炮”模型出现后,才有可能成功复现R1的结果。

2.4 这些“小钢炮”模型在各种推理基准测试上的分数,远高于早期实验中使用的模型,从而突破了技术瓶颈。

3. 总结

3.1 DeepSeek-R1-ZERO出现前,强化学习在生成思考链推理模型应用较少,主要原因在于Let’s Verify Step by Step论文的影响以及当时基础模型性能的不足。

3.2 Let’s Verify Step by Step论文将研究方向导向PRM,而忽视了ORM在强化学习中的优势;同时,早期LLM的推理能力有限,使得基于强化学习的方法难以取得突破。

3.3 只有在拥有足够强大的基础模型后,结合合适的强化学习算法,才能成功生成高质量的思考链推理模型,例如DeepSeek-R1-ZERO。

3.4 这体现了技术发展的阶段性,以及基础模型性能对于算法突破的重要性。“朽木不可雕也”恰当地总结了当时的研究困境。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。

暂无评论

暂无评论...