本期通讯 24617 字,可免费试读至 8%。
AI与机器人领域的三大要事解读
本文对机器之心PRO会员通讯Week 02中提到的三个重要AI&Robotics领域要事进行总结,包括对Next-Token Prediction的质疑、OpenAI的AGI战略以及Agent的应用前景。
1. 超越Next-Token Prediction:大型概念模型(LCM)的崛起
传统大型语言模型(LLM)依赖于Next-Token Prediction,即将文本转换为token序列进行预测。这种方法虽然简单有效,但其基于离散符号的处理方式与人类连续、复杂的思维方式存在冲突。人类思考问题通常采用分层方法,先规划整体结构再添加细节,而非逐字逐句地进行。
Meta提出的LCM则试图改变这种范式。LCM采用“Next-Concept Prediction”,直接在语义空间中进行推理和生成,模型输入和输出均为“concept”(概念),而非token。这种“以概念为中心”的范式允许模型在更高层次的抽象层面进行学习和推理,在多语言零样本泛化能力上超越了同尺寸LLM。LCM的出现引发了业内对tokenization的质疑,被认为是AI认知范式转变的新起点,并与Meta的其他研究成果(如BLT、JEPA)结合,展现出巨大的潜力。
LCM的核心在于将抽象层次限定为subword token和concept两个层面,概念被定义为与语言和模态无关的抽象实体,代表更高层次的想法或行为。通过将句子还原成概念序列,LCM实现了更接近人类思维方式的推理和生成。
2. OpenAI的AGI战略:商业化与“神奇药水”的平衡
OpenAI CEO Sam Altman公开表示,OpenAI的目标既是赚钱,也是创造“神奇药水”——通用人工智能(AGI)。 OpenAI对AGI定义的转变被解读为其商业化战略调整。 “通用”二字代表着巨大的商业价值,因为通用人工智能系统能够应用于更广泛的领域,成为“金苹果”。Agent被认为是AGI的重要机会,因为它能够在现实世界中与环境交互,并执行复杂任务。
3. Agent:25年产品落地的最佳方式?
谷歌发布的Agent白皮书认为,Agent是未来25年产品落地的最佳方式。Agent与传统的LLM不同,它能够与外界环境交互,并根据环境反馈调整自身行为。Agent的核心在于其编排层,它负责协调各个组件之间的工作,并制定Agent的行动策略。Agent与环境交互的工具多种多样,例如机器人、API等等。提升Agent性能的关键在于优化其编排层,并设计更有效的交互策略。
总而言之,这三项要事代表了AI领域一些重要的发展方向:从底层架构的革新(LCM),到AGI战略的商业化考量(OpenAI),以及面向应用落地的Agent技术(谷歌),都预示着AI技术正朝着更强大、更通用、更贴近实际应用的方向发展。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台