探索强化微调RFT：PPO驱动的新应用革命

希望大家不要再感慨 SFT 没价值了，也别感慨 RFT 真牛啊，完全追不上 OpenAI 之类的话，感慨无用。

原标题：聊聊对强化微调 RFT的理解及看法：PPO 下的新应用范式
 文章来源：智猩猩GenAI
内容字数：3953字

RFT的理解与应用

在即将到来的智猩猩AI新青年讲座中，清华大学在读博士生李镕辉将分享关于《音乐驱动的高质量长序列舞蹈生成》的主题。此外，本文将探讨对RFT（Reinforcement Fine-Tuning）的理解，基于OpenAI的直播及相关论文进行分析。

1. RFT的定义

RFT可以被理解为在给定prompt的基础上，生成包含cot（chain of thought）的response，并通过一个verifier判断其正确性，从而指导模型进行参数更新。与传统的PPO（Proximal Policy Optimization）相比，RFT的关键创新在于使用rule-based reward_model作为返回信号。

2. RFT的价值

RFT的主要价值在于其能够针对特定复杂任务创建专家模型。通过定制任务的verifier，RFT可以用更少的数据，甚至是十分之一的数据，轻松超越传统SFT（Supervised Fine-Tuning）的结果。RFT特别适合于法律、保险、医疗等领域，这些领域通常有明确的“正确答案”。

3. 字节的ReFT

字节的ReFT可以被视为OpenAI RFT在数学任务上的简化实现。ReFT的过程包括通过SFT获得模型，生成带cot的response，并根据答案的正确性进行评分和模型更新。尽管ReFT的创新看似平常，但其在o1之前的发表为其增添了价值。

4. RFT的影响

对于像字节这样的算力大厂，RFT可以帮助其提升服务能力，因此需要紧跟这一技术发展。而对于普通从业者而言，短期内不会有太大变化，仍需进行SFT训练。但长远来看，需关注PPO的重要性，并调整学习方向。

5. 结语

希望大家对SFT的价值有新的认识，RFT虽是新技术，但并不意味着SFT失去意义。对RFT感兴趣的读者可以通过OpenRLHF代码进行实践，深入理解这一新兴技术。

联系作者

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下公众号之一，深入关注大模型与AI智能体，及时搜罗生成式AI技术产品。

版权声明：atcat 发表于 2024-12-16 12:00:54。
转载请注明：探索强化微调RFT：PPO驱动的新应用革命 | 86AIGC导航

暂无评论

暂无评论...