OpenAI O1模型引发业界对大规模推理模型(large reasoning models ,LRM)研究的热潮。前文评测结果显示开源的Marco-o1效果不错,甚至超越部分闭源产品。今天这篇小作文将全面介绍Marco-o1的技术细节。
原标题:开源推理模型阿里Marco-o1技术细节全面解读
文章来源:智猩猩GenAI
内容字数:14541字
Marco-o1:增强大型语言模型推理能力的创新探索
本文介绍了阿里国际数字化商业团队提出的Marco-o1模型,该模型旨在提升大型语言模型(LLM)在复杂现实问题求解中的推理能力。Marco-o1并非由阿里Qwen团队开发,它着重于解决缺乏明确标准、难以量化奖励的开放性问题,而非仅限于数学、物理和编程等具有标准答案的领域。
1. Marco-o1 的主要创新
Marco-o1的主要贡献在于以下几个方面:
基于思维链 (CoT) 的微调: 通过对基础模型Qwen2-7B-Instruct进行全参数微调,并结合开源和自主开发的CoT数据集,提升了模型处理复杂任务的能力。
蒙特卡罗树搜索 (MCTS) 扩展解空间: 将大语言模型与MCTS算法相结合,利用模型输出置信度来指导搜索,扩展了模型的解空间,从而找到更优解。
创新的推理动作策略: 引入不同粒度的推理动作(step和mini-step),以及反思机制,显著提高了模型解决复杂问题的能力。mini-step策略将推理步骤细分为32或64个token,允许更精细的推理路径探索。
首次将LRM应用于机器翻译: 探索了推理时间缩放定律在多语言和翻译领域的应用,展现了Marco-o1在处理复杂翻译任务,特别是口语和俚语方面的优势。
2. MCTS 在 Marco-o1 中的应用
Marco-o1 利用 MCTS 算法来扩展其解空间。MCTS 的四个步骤——选择、扩展、模拟和反向传播——在 Marco-o1 中被重新定义:
选择: 基于节点的累计奖励(置信度得分)和访问次数选择下一步推理。
扩展: 使用大语言模型生成多个可能的下一步推理输出,作为新的节点。
模拟: 通过大语言模型模拟完整的推理路径,并计算每个token的置信度,最终得到整体奖励分数。
反向传播: 将模拟结果(奖励)反向传播更新节点的统计信息。
置信度分数的计算基于softmax函数,考虑了前5个候选token的对数概率,从而更准确地评估推理路径的质量。
3. 推理行动策略与反思机制
Marco-o1 探索了两种粒度的推理动作:step和mini-step。mini-step 策略通过更细粒度的动作,能够探索到step策略可能忽略的更优解。此外,Marco-o1 引入了反思机制,通过提示模型自我反思,修正潜在错误,进一步提升了模型的准确性。
4. 实验结果与分析
实验结果表明,Marco-o1 在 MGSM 数据集上取得了显著的性能提升,MCTS 的引入有效扩展了解空间,提高了模型解决复杂问题的概率。不同粒度的推理动作策略在不同数据集和任务上的表现有所差异,目前尚无绝对最佳策略。 在翻译任务中,Marco-o1 也展现出了优于 Google Translate 的能力,尤其是在处理口语和俚语方面。
5. 未来展望
未来,研究团队计划通过结果奖励建模 (ORM) 和过程奖励建模 (PRM) 来完善 MCTS 的奖励信号,并利用强化学习技术微调 Marco-o1 的决策过程,以进一步增强其处理复杂现实任务的能力。
6. 第四届全球自动驾驶峰会预告
最后,文章还预告了将于1月14日在北京举办的第四届全球自动驾驶峰会。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。