双AI协作，数学成绩飙升5分的神奇秘密！

合作才能更强！互相纠错可提升LLM的数学 能力。

原标题：微软：两个AI相互纠错，数学再涨5分
文章来源：量子位
内容字数：5202字

最近，加州大学和微软研究院提出了一种新的方法Flow-DPO，通过两个大型语言模型（LLM）的合作，显著提升了LLM在数学推理方面的能力。这一方法结合了在线学习流（Flow）和直接偏好优化（DPO），旨在生成更详细和精确的推理轨迹，解决传统LLM在数学问题上表现不佳的难题。

传统的LLM在解决数学问题时，常常面临反馈信息有限和标注数据质量不高的问题。Flow-DPO通过引入两个独立的LLM（Answer LLM和Stop LLM），实现了更高效的解题过程。

Flow-DPO的工作流程可分为两个部分：

（1）增量输出生成Flow：Answer LLM逐步生成答案块，Stop LLM则判断每个答案块是否达到最终状态，两个模型通过迭代学习不断优化。

（2）在线Flow学习与回滚：在生成答案的过程中，Answer LLM会随机生成不同的答案片段，并根据Stop LLM的反馈进行调整，确保最终选择的答案是最优的。

研究团队在MetaMath数据集上进行了验证实验，使用了两种不同规模的模型：Llama-3-8B-Instruct和Phi-3-medium-128k-instruct。实验结果表明，Flow-DPO显著提升了模型的数学推理能力：

（1）在渐进验证准确率方面，Llama-3-8B-Instruct的性能提高了20%，而Phi-3-medium-128k-instruct的准确率提升了4个百分点，达到了83%。

（2）Flow生成的推理轨迹质量优于基线模型，Llama-3-8B-Instruct在GSM8K和MATH数据集上的微调准确率分别提高了6%和7.8%。

Flow-DPO的成功展示了两个模型的合作能够有效解决复杂数学问题，提高了LLM的逻辑分析能力和推理质量。随着技术的进步，未来的LLM有望在更多领域展现其潜力，解决更复杂的问题。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

版权声明：atcat 发表于 2024-12-05 20:31:15。
转载请注明：双AI协作，数学成绩飙升5分的神奇秘密！ | 86AIGC导航

暂无评论...