如果科学这颗宝石都集中在同一个非开源公司,那么我们造出的是新神,还是带上无限手套的灭霸?
OpenAI 发布新的强化微调方法
2024年12月6日,加州时间上午11点,OpenAI推出了一种新的强化微调(Reinforcement Finetuning,RFT)方法,旨在构造专家模型。该方法可以通过上传几十到几千条训练案例,快速学习特定领域的决策问题,如医疗诊断和罕见病诊断。
技术背景与原理
RFT方法的核心在于利用强化学习与人类反馈(RLHF)技术,这一技术已经在对齐大模型与人类偏好方面得到了广泛应用。训练数据通常以(问题,回答1,回答2,偏好)的形式呈现,用户通过选择更喜欢的回答来训练奖励模型(reward model)。然后,使用强化学习算法(如PPO、DPO)对模型进行微调,进而生成更符合用户偏好的内容。
应用与挑战
OpenAI的RFT方法在特定专家场景中展现出强大的能力。该方法本质上是结合了链式思维(CoT)与强化学习,通过生成多样化的推理路径并进行评分,从而不断迭代提升模型的决策能力。然而,如何定义思维过程中的状态转移(state transition)和寻找合适的状态表示仍然是技术难点。
局限性与科学问题
尽管RFT在一些简单的决策树问题中表现良好,如罕见病的诊断,但面对真正复杂的科学问题时,仍然存在许多挑战。科学问题往往缺乏固定选项和标准答案,如何定义行动和问题的提问方式是更为复杂的科学难题。
风险与未来展望
OpenAI同时发布了强化微调研究项目,邀请全球科研人员提供领域数据集以测试RFT的决策能力。这引发了对AI安全性的担忧,尤其是当科学技术集中在非开源公司手中时,可能会带来控制风险。未来,如何确保AI技术的安全性、可控性与可追踪性,将是科学界面临的重要课题。
作者王梦迪,普林斯顿大学电子与计算机工程系教授,专注于强化学习、可控大模型及AI for Science等领域,曾在多个知名机构担任访问学者,获得多项荣誉。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台