人工智能的崛起:超越灭霸的未来科学之路


如果科学这颗宝石都集中在同一个非开源公司,那么我们造出的是新神,还是带上无限手套的灭霸?

人工智能的崛起:超越灭霸的未来科学之路

原标题:OpenAI强化微调:RL+Science 创造新神还是灭霸?
文章来源:机器之心
内容字数:3897字

OpenAI 发布新的强化微调方法

2024年12月6日,加州时间上午11点,OpenAI推出了一种新的强化微调(Reinforcement Finetuning,RFT)方法,旨在构造专家模型。该方法可以通过上传几十到几千条训练案例,快速学习特定领域的决策问题,如医疗诊断和罕见病诊断。

技术背景与原理

RFT方法的核心在于利用强化学习人类反馈(RLHF)技术,这一技术已经在对齐大模型与人类偏好方面得到了广泛应用。训练数据通常以(问题,回答1,回答2,偏好)的形式呈现,用户通过选择更喜欢的回答来训练奖励模型(reward model)。然后,使用强化学习算法(如PPO、DPO)对模型进行微调,进而生成更符合用户偏好的内容。

应用与挑战

OpenAI的RFT方法在特定专家场景中展现出强大的能力。该方法本质上是结合了链式思维(CoT)与强化学习,通过生成多样化的推理路径并进行评分,从而不断迭代提升模型的决策能力。然而,如何定义思维过程中的状态转移(state transition)和寻找合适的状态表示仍然是技术难点。

局限性与科学问题

尽管RFT在一些简单的决策树问题中表现良好,如罕见病的诊断,但面对真正复杂的科学问题时,仍然存在许多挑战。科学问题往往缺乏固定选项和标准答案,如何定义行动和问题的提问方式是更为复杂的科学难题。

风险与未来展望

OpenAI同时发布了强化微调研究项目,邀请全球科研人员提供领域数据集以测试RFT的决策能力。这引发了对AI安全性的担忧,尤其是当科学技术集中在非开源公司手中时,可能会带来控制风险。未来,如何确保AI技术的安全性、可控性与可追踪性,将是科学界面临的重要课题。

作者王梦迪,普林斯顿大学电子与计算机工程系教授,专注于强化学习、可控大模型及AI for Science等领域,曾在多个知名机构担任访问学者,获得多项荣誉。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

版权声明:atcat 发表于 2024-12-09 12:03:06。
转载请注明:人工智能的崛起:超越灭霸的未来科学之路 | 86AIGC导航

暂无评论

暂无评论...