希望大家不要再感慨 SFT 没价值了,也别感慨 RFT 真牛啊,完全追不上 OpenAI 之类的话,感慨无用。
RFT的理解与应用
在即将到来的智猩猩AI新青年讲座中,清华大学在读博士生李镕辉将分享关于《音乐驱动的高质量长序列舞蹈生成》的主题。此外,本文将探讨对RFT(Reinforcement Fine-Tuning)的理解,基于OpenAI的直播及相关论文进行分析。
1. RFT的定义
RFT可以被理解为在给定prompt的基础上,生成包含cot(chain of thought)的response,并通过一个verifier判断其正确性,从而指导模型进行参数更新。与传统的PPO(Proximal Policy Optimization)相比,RFT的关键创新在于使用rule-based reward_model作为返回信号。
2. RFT的价值
RFT的主要价值在于其能够针对特定复杂任务创建专家模型。通过定制任务的verifier,RFT可以用更少的数据,甚至是十分之一的数据,轻松超越传统SFT(Supervised Fine-Tuning)的结果。RFT特别适合于法律、保险、医疗等领域,这些领域通常有明确的“正确答案”。
3. 字节的ReFT
字节的ReFT可以被视为OpenAI RFT在数学任务上的简化实现。ReFT的过程包括通过SFT获得模型,生成带cot的response,并根据答案的正确性进行评分和模型更新。尽管ReFT的创新看似平常,但其在o1之前的发表为其增添了价值。
4. RFT的影响
对于像字节这样的算力大厂,RFT可以帮助其提升服务能力,因此需要紧跟这一技术发展。而对于普通从业者而言,短期内不会有太大变化,仍需进行SFT训练。但长远来看,需关注PPO的重要性,并调整学习方向。
5. 结语
希望大家对SFT的价值有新的认识,RFT虽是新技术,但并不意味着SFT失去意义。对RFT感兴趣的读者可以通过OpenRLHF代码进行实践,深入理解这一新兴技术。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。