NeurIPS 2024 | 智能体不够聪明怎么办?让它像学徒一样持续学习

来源:人工智能前沿讲习“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!此项研究成果已被 NeurIPS 2024 录用。该论文的第一作者清华大学计算机系博士生关健(导师:黄民烈教授),目前任蚂蚁研究院副研究员,其主要研究领域为文本生成、复杂推理和偏好对齐。随着 ChatGPT 掀起的 AI 浪潮进入第三年,人工智能体(AI Agent)作为大语言模型LLM)落地应用的关键载体,正受到学术界和产业界的持续关注。实际上,早在 5-6 年前,预训练技术就已经在许多实际任务中取得了显著成果。但 AI Agent 之所以在当下备受瞩目,更多地源于其在自动解决复杂任务方面展现出的巨大潜力,而这种潜力的核心基石正是智能体的复杂推理能力。与当下广受关注的 OpenAI-o1 及其追随者略有不同,大多数实用的 AI Agent 往往需要在特定场景下发挥作用。这种情况类似于普通人类:虽然不是每个人都需要具备获得 IMO 金牌的数学素养,但在具体场景下利用特定知识和工具完成复杂任务(例如使用搜索引擎、处理私有文档等)的能力却是不可或缺的。这一特点也意味着 AI Agent 的开发者们需要一套既通用又高效的 Agent 构建方法论。更具挑战性的是,作为面向实际应用的产品,AI Agent 在部署后还需要能够随着应用场景的演进和用户需求的变化而不断更新优化。这些实际问题都表明,构建一个真正实用的 AI Agent 绝非简单的提示工程(Prompt Engineering)或模型微调(Fine-tuning)所能解决,而是需要更系统化的方法。在 NeurIPS 2024 上,来自清华大学和蚂蚁集团的研究者针对人工智能体构建方法的通用性和适应性提出了一个新方案。这个被命名为 AMOR(Adaptable MOdulaR knowledge agent)的系统,不仅能低成本地调用专业工具和知识库,更重要的是,它能像人类一样持续学习和成长。论文标题:AMOR: A Recipe for Building Adaptable Modular Knowledge Agents Through Process Feedback论文地址:https://arxiv.org/abs/2402.01469作者主页:https://jianguanthu.github.io/AI Agent 的「三大短板」:为什么它们还不够「聪明」?想让 AI Agent 真正胜任助手角色,仅有海量知识是远远不够的。研究团队通过深入分析发现,当前 AI Agent 普遍存在三大短板:「黑盒思维」:与优秀人类助手能清晰展示解题思路不同,AI Agent 的推理过程往往是个黑箱,我们根本无从得知它是如何得出结论的。「固步自封」:AI Agent 就像被困在训练时刻的「永恒现在」,无法像人类那样与时俱进,持续获取新能力、更新认知。「粗放纠错」:当 AI Agent 犯错时,我们只能笼统地说「答案不对」,而无法像指导学生那样,精确指出「这一步推理有问题」。更令人困扰的是,目前业界主流方案都未能同时解决这三大难题。作者对比了当前最具代表性的 AI Agent 框架,它们要么推理过程不可控,要么知识固化,要么反馈机制过于粗糙。这一困境在开源模型中表现得尤为明显。AMOR 和已有构建智能体的代表性方法的比较AMOR:基于有限状态机的模块化推理方案如何让 AI Agent 既能像专家一样严谨思考,又能像学徒一样持续成长?AMOR 框架给出了一个优雅的答案:将复杂的 AI 推理过程拆解成可控的「专家模块」,通过有限状态机(FSM)编排它们的协作规则,就像精密的齿轮系统一样,每个部件都完美啮合。AMOR 的状态转移图这种设计带来三大关键优势:1. 结构化推理框架FSM 使得定义步骤间的依赖关系(例如,执行顺序、分支选择)非常方便,因此能够容易地对错误的路径进行剪枝,从而缩小探索空间,也有潜力更高效地构建类 OpenAI-O1 的长推理链。2. 「双阶段」训练策略通过将复杂任务解耦为独立模块,AMOR 能够独立训练每个模块,从而可以充分利用开源数据集。具体而言,AMOR 采用「预热 + 适应」两阶段训练模式:快速起步 – 预热阶段:就像新员工入职培训,AMOR 通过在 5 万个自动构建的样本上训练掌握基础技能。这些样本被巧妙地分解到各个模块,使得即便是开源语言模型也能快速达到专业水准。持续进化 – 适应阶段:像经验丰富的职场人一样,AMOR 在实际工作中不断成长。每解决一个问题,它就能积累一分经验,逐步适应特定领域的专业需求。3. 过程反馈机制传统 AI 训练就像只告诉学生「考试及格 / 不及格」,而不指出具体错在哪里。这种粗糙的反馈机制常常导致 AI 像「黑盒」一样难以诊断问题,训练效果事倍功半。而 AMOR 引入「过程反馈」机制,在适应训练阶段中,其结构化的推理过程使用户能够轻松诊断智能体的错误,并提供过程反馈以提高智能体的推理能力。4. 框架通用性AMOR 框架的设计充分考虑了通用性和可扩展性。虽然论文主要以文本知识库为例进行验证,但其基于 FSM 的模块化设计天然支持多种应用场景的迁移和扩展:知识类型扩展:通过定制 FSM 框架内的模块和依赖关系,AMOR 可以灵活支持不同类型的知识库,如结构化数据库多模态知识等。任务类型扩展:除了问答任务外,通过重新设计状态转移图,AMOR 还可以支持其他知识密集型任务,如文档摘要、知识推理等。工具集成扩展:得益于模块化设计,AMOR 可以方便地集成各类专业工具。只需将新工具封装为对应的工具模块,并在 FSM 中定义其调用规则即可。这种可扩展的架构设计使得 AMOR 不仅能够解决当前的知识推理任务,更为未来接入新的知识源、任务类型和工具能力预留了充足的扩展空间。正如论文所述,AMOR 提供了一个构建知识智能体的通用框架,其核心思想是基于 FSM 的推理逻辑和过程反馈机制,这使得它能够适应各种不同的应用场景需求。AMOR 实现:模型结构和训练过程AMOR 采用了一种巧妙的「专家混合」架构(Module-Aware Mixture-of-Experts,简称 MA-MoE)。这种设计灵感来自人类的专业分工:就像一个人可以是优秀的医生,同时在其他领域保持基本能力。具体来说,MA-MoE 为每个功能模块配备了独特的 FFN 参数,并用原始模型的 FFN 参数进行初始化。这就像是在 AI 的「大脑」中划分了专门的「思维区域」。在预热阶段,AMOR 用标准的 MLE Loss 在 5 万个样本上对 MA-MoE 进行微调。在适应阶段,AMOR 的训练过程分为三个关键步骤:探索、反馈和利用。探索(Exploration):就像学徒需要亲自动手实践,AMOR 会直接处理用户的实际问题。在这个过程中,AMOR 在知识库中搜索相关信息,进行思考和推理,并推断答案。反馈(Feedback Collection):这个阶段就像师傅在旁边观察学徒的工作,并给出具体指导,可以直接说「对」或「错」,也可以具体指出正确答案,并且 AMOR 的每个推理步骤都能得到反馈。利用(Exploitation):每处理一定数量的问题后,AMOR 会根据收集到的反馈进行「复盘」,使用 KTO Loss 将 MA-MoE 和人类偏好对齐。和预热阶段类似,AMOR 的每个模块在优化时只调整自己的「专业参数」。AMOR 实验:成本更低,效果更好在 HotpotQA(百科知识问答)、PubMedQA(医学文献问答)和 QASPER(论文长文本问答)三个基准测试中,AMOR 展现出优秀的性能:AMOR 的 FSM 框架让 AI 的推理过程更加清晰可控,比传统方法提升 30%~40%;通过在多个开源数据集上预热,AMOR 甚至超越了用 GPT-4 生成训练数据的智能体;使用过程反馈比结果反馈进行适应更高效:仅需 800 次互动就能达到稳定效果,并且证据收集能力和推理正确率显著提升。AMOR 及基线方法在微调或不微调时的实验结果实例展示下图比较了 AMOR 和传统的 ReAct 框架(基于 GPT-3.5)分别回答同一问题的推理过程:AMOR(上)和 ReAct(下)回答同一输入问题的样例如图所示,没有明确推理逻辑约束的 ReAct 未能成功分解问题,并在「Thought/Action 5」 中过早地终止检索。此外,ReAct 在「Thought 2/4/5」中也混合了正确和错误的步骤,这使得用户难以针对性地批评和改进智能体。相比之下,AMOR 则如同经验丰富的专家,每一步推理都清晰可控,不仅能准确找到答案,还能接受精确的过程指导,持续提升自己的能力。成本分析在 AI 领域,性能提升往往意味着更高的成本。然而,如下图所示,AMOR 打破了这个「魔咒」。不同智能体的平均步骤数 /token 数对比为什么 AMOR 如此高效?想象一个团队会议:传统方法(如 ReAct)像是每个人发言都要重复之前所有人说过的话;AMOR 则像是精心设计的会议流程:每个环节只传递必要信息。按照目前 API 调用成本计算,使用 GPT-4o 处理 1 万个问题,AMOR 比 ReAct 节省数百美元;当使用开源模型时,成本可以进一步降低 90% 以上。这意味着 AMOR 不仅在性能上领先,在商业落地时也具有显著的成本优势。尤其适合大规模文档处理、客服智能问答、专业领域咨询等高频场景的应用。结语本文介绍了 AMOR—— 一个为知识密集型任务设计的模块化智能体框架。它通过 FSM 推理系统和过程反馈机制,让 AI 展现出前所未有的推理能力和学习潜力。AMOR 的成功为 AI 助手的发展开辟了新路径。作者表示,接下来,他们将拓展到更多知识类型(如结构化知识库)、探索更广泛的应用场景、研究 AI 自主设计推理逻辑的可能性。这些工作预示着我们正在接近真正的「AI 专家」:既有清晰的推理能力,又能在实践中持续成长。阅读报告全文,请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告Air Street Capital《2024 年人工智能现状报告》未来今日研究所:2024 技术趋势报告 – 广义计算篇科睿唯安中国科学院 2024 研究前沿热度指数报告文本到图像合成:十年回顾《以人为中心的大型语言模型(LLM)研究综述》经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告理解世界还是预测未来?世界模型的综合综述Google Cloud CSA2024 AI 与安全状况调研报告英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告国际原子能机构 2024 聚变关键要素报告 – 聚变能发展的共同愿景国际可再生能源署 IRENA2024 年全球气候行动报告Cell: 物理学和化学 、人工智能知识领域的融合智次方 2025 中国 5G 产业全景图谱报告未来今日研究所:2024 技术趋势报告 – 移动性,机器人无人机篇Deepmind:AI 加速科学创新发现的黄金时代报告PitchBookNVCA2024 年第三季度全球风险投资监测报告德科 2024 年未来全球劳动力报告高工咨询 2024 年协作机器人产业发展蓝皮书国际能源署 IEA2024 年全球能源效率报告基因慧基因行业蓝皮书 2024 – 2025普华永道 PwC2024 全球经济犯罪调查英国报告 – 智对风险直面挑战中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书中移智库 2024 先进感知新技术及新应用白皮书智次方研究院 2025 中国 AIoT 产业全景图谱报告未来今日研究所:2024 技术趋势报告 – 人工智能篇国际电联:迈向衡量数字经济的通用框架的路线图联合国粮食与农业组织:2024 年世界粮食安全和营养状况大语言模型综述李飞飞等,AI 智能体:探索多模式交互的前景综述哈尔滨工业大学 – ChatGPT 调研报告2024《美国核部署战略报告》最新文件清华大学:AIGC 发展研究 3.0 发布版 b 版OpenAI:2024 年 OpenAI o1 大模型技术报告Verizon2024 年世界支付安全报告皇家学会哲学学报 从复杂系统角度评估人工智能风险复旦大学 大模型 AI 代理的兴起和潜力:综述经合组织 OECD2024 年气候行动监测报告Wevolver2024 年边缘人工智能现状报告 – 探索各行业边缘 AI 应用动态2024 全球人形机器人产品数据库报告 – 人形机器人洞察研究 BTIResearch《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定瑞士洛桑联邦理工学院 《人工智能中的 – 创造力:进展与挑战》《你所需要知道的理 – 论:人工智能、人类认知与决策》牛津大学最新 53 页报告世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024ADL 理特咨询 2024 汽车出行未来展望报告2024 中国硬科技创新发展白皮书 – 开辟未来产业新赛道科学时代的大语言模型中的人工智能Gartner2025 年重要战略技术趋势报告CBInsights2024 年第三季度全球人工智能投融资状况报告TrendHunter2025 年全球趋势报告 – 全行业顶级创新和变革趋势前瞻天津大学 2024 大模型轻量化技术研究报告欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版美国安全与新兴技术中心 2024 AI 生成代码网络安全风险研究报告国际原子能机构 2024 年世界聚变展望报告复旦大学 2024 大语言模型的能力边界与发展思考报告安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图YouGov2024 美国公众对人工智能 AI 的态度调研报告麦肯锡中国报告:《中国与世界》完整版麦肯锡全球研究所 2024 下一代竞技场报告 – 重塑全球经济的 18 个新兴行业领域Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目德国研究与创新专家委员会 德国研究创新与科技成果报告2024 年欧洲关键产业的科技重塑研究报告智能体专题报告之二 – 智能体时代来临具身智能有望成为最佳载体ActivateConsulting 2025 年顶级技术和媒体发展趋势报告兰德 全球灾难风险评估斯坦福李飞飞 《AI agent 综述》Agent AI 开启多模态交互新纪元中国联通研究院 2024 中国生成式人工智能应用与实践展望白皮书中文版普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来大成 Dentsons2024 年全球智慧城市与互联社区智库年度报告TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告Emakina 将塑造 2024 年的技术趋势报告图灵奖得主 Yann LeCun《机器如何才能达到人类智能水平?》——Yann LeCun, 附 Slides 及视频华为:2024 鸿蒙生态应用开发白皮书 V3.0(最新版)CASA:2023 第三代半导体产业发展报告大型视觉语言模型中幻觉现象的综述IEA PVPS:2024 光伏应用趋势报告(英文版)ABI Research:82 个将会或不会在 2024 年发生的技术趋势白皮书《美国反无人机系统未来趋势报告(2024 – 2029 年)》《军事自主系统:未来之路》美空军空间智能如何?牛津大学博士论文《深度具身智能体的空间推理与规划》2024 低空经济场景白皮书 v1.0战略与国际研究中心(CSIS)人类地月空间探索的总体状况研究报告(2024)Artificial Intelligence Review:人工智能与物理学相遇的综述麦肯锡:全球难题,应对能源转型的现实问题欧米伽理论,智能科学视野下的万物理论新探索(研究论文)Gartner 2025 年主要战略技术趋势研究报告2024 人工智能国外大模型使用手册 + 中文大模型使用手册详解光刻巨人 ASML 成功之奥妙 – 241015CB Insights:未来变革者:2025 年九大科技趋势研究报告国际电信联盟 2023 – 2024 年联合国人工智能 AI 活动报告《人工智能能力的人类系统集成测试和评估》最新 51 页,美国防部首席数字和人工智能办公室(CDAO)2024 瑞典皇家科学院诺贝尔化学奖官方成果介绍报告MHP 2024 全球工业 4.0 晴雨表白皮书世界经济论坛白皮书《AI 价值洞察:引导人工智能实现人类共同目标》瑞典皇家科学院诺贝尔物理学奖科学背景报告资料AI 智能体的崛起:整合人工智能、区块链技术与量子计算 (研究报告,书)OpenAI o1 评估:AGI 的机遇和挑战(280 页)世界知识产权组织:2024 年全球创新指数美国白宫:国家近地天体防御策略与行动计划上下滑动查看更多

版权声明:atcat 发表于 2024-12-13 12:04:21。
转载请注明:NeurIPS 2024 | 智能体不够聪明怎么办?让它像学徒一样持续学习 | 86AIGC导航

暂无评论

暂无评论...