合作才能更强!互相纠错可提升LLM的数学能力。
提升LLM数学能力的新方法:Flow-DPO
最近,加州大学和微软研究院提出了一种新的方法Flow-DPO,通过两个大型语言模型(LLM)的合作,显著提升了LLM在数学推理方面的能力。这一方法结合了在线学习流(Flow)和直接偏好优化(DPO),旨在生成更详细和精确的推理轨迹,解决传统LLM在数学问题上表现不佳的难题。
1. 研究背景
传统的LLM在解决数学问题时,常常面临反馈信息有限和标注数据质量不高的问题。Flow-DPO通过引入两个独立的LLM(Answer LLM和Stop LLM),实现了更高效的解题过程。
2. 方法论
Flow-DPO的工作流程可分为两个部分:
(1)增量输出生成Flow:Answer LLM逐步生成答案块,Stop LLM则判断每个答案块是否达到最终状态,两个模型通过迭代学习不断优化。
(2)在线Flow学习与回滚:在生成答案的过程中,Answer LLM会随机生成不同的答案片段,并根据Stop LLM的反馈进行调整,确保最终选择的答案是最优的。
3. 实验结果
研究团队在MetaMath数据集上进行了验证实验,使用了两种不同规模的模型:Llama-3-8B-Instruct和Phi-3-medium-128k-instruct。实验结果表明,Flow-DPO显著提升了模型的数学推理能力:
(1)在渐进验证准确率方面,Llama-3-8B-Instruct的性能提高了20%,而Phi-3-medium-128k-instruct的准确率提升了4个百分点,达到了83%。
(2)Flow生成的推理轨迹质量优于基线模型,Llama-3-8B-Instruct在GSM8K和MATH数据集上的微调准确率分别提高了6%和7.8%。
4. 结论
Flow-DPO的成功展示了两个模型的合作能够有效解决复杂数学问题,提高了LLM的逻辑分析能力和推理质量。随着技术的进步,未来的LLM有望在更多领域展现其潜力,解决更复杂的问题。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破