探索强化微调RFT:PPO驱动的新应用革命

AI快讯 23小时前 atcat
0 0

希望大家不要再感慨 SFT 没价值了,也别感慨 RFT 真牛啊,完全追不上 OpenAI 之类的话,感慨无用。

探索强化微调RFT:PPO驱动的新应用革命

原标题:聊聊对强化微调RFT的理解及看法:PPO 下的新应用范式
文章来源:智猩猩GenAI
内容字数:3953字

RFT的理解与应用

在即将到来的智猩猩AI新青年讲座中,清华大学在读博士生李镕辉将分享关于《音乐驱动的高质量长序列舞蹈生成》的主题。此外,本文将探讨对RFT(Reinforcement Fine-Tuning)的理解,基于OpenAI的直播及相关论文进行分析。

1. RFT的定义

RFT可以被理解为在给定prompt的基础上,生成包含cot(chain of thought)的response,并通过一个verifier判断其正确性,从而指导模型进行参数更新。与传统的PPO(Proximal Policy Optimization)相比,RFT的关键创新在于使用rule-based reward_model作为返回信号。

2. RFT的价值

RFT的主要价值在于其能够针对特定复杂任务创建专家模型。通过定制任务的verifier,RFT可以用更少的数据,甚至是十分之一的数据,轻松超越传统SFT(Supervised Fine-Tuning)的结果。RFT特别适合于法律、保险、医疗等领域,这些领域通常有明确的“正确答案”。

3. 字节的ReFT

字节的ReFT可以被视为OpenAI RFT在数学任务上的简化实现。ReFT的过程包括通过SFT获得模型,生成带cot的response,并根据答案的正确性进行评分和模型更新。尽管ReFT的创新看似平常,但其在o1之前的发表为其增添了价值。

4. RFT的影响

对于像字节这样的算力大厂,RFT可以帮助其提升服务能力,因此需要紧跟这一技术发展。而对于普通从业者而言,短期内不会有太大变化,仍需进行SFT训练。但长远来看,需关注PPO的重要性,并调整学习方向。

5. 结语

希望大家对SFT的价值有新的认识,RFT虽是新技术,但并不意味着SFT失去意义。对RFT感兴趣的读者可以通过OpenRLHF代码进行实践,深入理解这一新兴技术。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

版权声明:atcat 发表于 2024-12-16 12:00:54。
转载请注明:探索强化微调RFT:PPO驱动的新应用革命 | 86AIGC导航

暂无评论

暂无评论...