双AI协作,数学成绩飙升5分的神奇秘密!


合作才能更强!互相纠错可提升LLM数学能力

双AI协作,数学成绩飙升5分的神奇秘密!

原标题:微软:两个AI相互纠错,数学再涨5分
文章来源:量子
内容字数:5202字

提升LLM数学能力的新方法:Flow-DPO

最近,加州大学和微软研究院提出了一种新的方法Flow-DPO,通过两个大型语言模型(LLM)的合作,显著提升了LLM在数学推理方面的能力。这一方法结合了在线学习流(Flow)和直接偏好优化(DPO),旨在生成更详细和精确的推理轨迹,解决传统LLM在数学问题上表现不佳的难题。

1. 研究背景

传统的LLM在解决数学问题时,常常面临反馈信息有限和标注数据质量不高的问题。Flow-DPO通过引入两个独立的LLM(Answer LLM和Stop LLM),实现了更高效的解题过程。

2. 方法论

Flow-DPO的工作流程可分为两个部分:

(1)增量输出生成Flow:Answer LLM逐步生成答案块,Stop LLM则判断每个答案块是否达到最终状态,两个模型通过迭代学习不断优化。

(2)在线Flow学习与回滚:在生成答案的过程中,Answer LLM会随机生成不同的答案片段,并根据Stop LLM的反馈进行调整,确保最终选择的答案是最优的。

3. 实验结果

研究团队在MetaMath数据集上进行了验证实验,使用了两种不同规模的模型:Llama-3-8B-Instruct和Phi-3-medium-128k-instruct。实验结果表明,Flow-DPO显著提升了模型的数学推理能力:

(1)在渐进验证准确率方面,Llama-3-8B-Instruct的性能提高了20%,而Phi-3-medium-128k-instruct的准确率提升了4个百分点,达到了83%。

(2)Flow生成的推理轨迹质量优于基线模型,Llama-3-8B-Instruct在GSM8K和MATH数据集上的微调准确率分别提高了6%和7.8%。

4. 结论

Flow-DPO的成功展示了两个模型的合作能够有效解决复杂数学问题,提高了LLM的逻辑分析能力和推理质量。随着技术的进步,未来的LLM有望在更多领域展现其潜力,解决更复杂的问题。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

版权声明:atcat 发表于 2024-12-05 20:31:15。
转载请注明:双AI协作,数学成绩飙升5分的神奇秘密! | 86AIGC导航

暂无评论

暂无评论...