发布了新的Reinforcement Finetuning方法~
OpenAI发布新的强化微调方法
2024年12月6日,加州时间上午11点,OpenAI推出了一种新的强化微调方法(Reinforcement Finetuning,RFT),旨在构造专家模型,特别适用于医疗诊断和罕见病诊断等特定领域的决策问题。该方法允许用户上传几十到几千条训练案例,通过微调实现高效决策。
强化微调的技术背景
此次发布的RFT方法基于广泛应用于对齐(alignment)、数学和编码领域的技术,前身为人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)。RLHF通过用户选择偏好来训练奖励模型(reward model),并利用强化学习算法(如PPO和DPO)对模型进行微调,从而使模型生成更符合人类偏好的内容。
RFT的核心机制
OpenAI的RFT方法在少量数据的情况下,能够掌握医疗诊断和科学决策过程。该方法本质上结合了链式推理(Chain of Thought,CoT)和强化学习(RL),通过生成多样的推理路径进行评分,并继续进行RL微调。关键在于如何定义状态转变(state-transition)以及如何在token级别和完整响应级别之间找到平衡。
技术的局限性
尽管RFT展示了显著的潜力,但在罕见病诊断等简单决策树任务上表现优异,并不代表其在更复杂科学问题上的有效性。真正的科学问题往往没有固定选项,定义行动和问题的方式也更具挑战性。此外,科学数据通常含有噪音,不如简单的多选题清晰。
潜在风险与未来展望
在OpenAI发布RFT的同时,启动了一个强化微调研究项目,邀请全球科研人员提交决策数据集。这引发了关于AI安全性和可控性的讨论。科学研究集中在少数非开源公司手中,可能导致技术滥用和伦理风险。未来,如何确保AI技术的安全、可控和可追踪,将是亟待解决的挑战。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。