谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理

原标题：谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理
 文章来源：人工智能学家
内容字数：8364字

多模态 大语言模型的空间推理 能力研究

本文总结了纽约大学谢赛宁团队的研究，该研究探索了多模态大语言模型（MLLMs）在视觉空间智能方面的能力。研究发现，虽然MLLMs在空间推理方面仍有很大提升空间，但它们已经展现出一定的“空间意识”和局部世界模型构建能力。

1. 研究背景与目标

人类拥有强大的视觉空间智能，能够通过连续的视觉观察记忆空间并进行推理。研究团队旨在探究MLLMs是否也能从视频中进行“空间思维”，并评估其空间推理能力。他们关注MLLMs如何“看见、记忆和回忆空间”。

2. 研究方法与数据

研究团队利用现有的空间扫描视频及其ground-truth标注，自动生成视觉问答(VQA)问题，并由人工进行质量控制。他们构建了一个新的基于视频的视觉空间智能基准（VSI-Bench），包含5000多个问答对，涵盖了各种视觉空间智能任务（关系任务和度量任务）。

3. 主要发现

研究发现，即使是性能最好的Gemini Pro模型，其空间推理能力也远低于人类。常见的语言推理技术（如思维链、自洽性、思维树）无法提升MLLMs的空间推理能力，反而可能降低准确率。MLLMs在视角转换、自我中心转换和长视野追踪方面存在困难。它们倾向于构建一系列局部世界模型，而非一个连贯的全局模型，这限制了其处理远距离物体关系的能力。

4. 模型局限性与未来方向

研究表明，空间推理能力，而非物体识别或语言能力，是MLLMs在视觉空间智能任务中的主要瓶颈。 MLLMs在处理空间信息时，缺乏人类可以调整和完善心智模型的能力。未来研究方向应集中在开发更有效的空间记忆机制，以提升MLLMs的空间推理能力。

5. 研究意义与应用前景

这项研究揭示了MLLMs在视觉空间智能方面的局限性和潜力。它强调了视觉空间智能与语言智能的差异，并为未来开发更强大的空间推理模型指明了方向。研究团队相信，视觉空间智能在现实世界中的应用即将到来，例如，人工智能眼镜可以帮助用户导航和定位。

6. 补充信息

研究中使用的视频以2倍速播放，Gemini-1.5 Pro模型在所有空间推理问题上均未答对。研究团队通过提示模型在笛卡尔网格上“可视化”其记忆来探究模型内部的工作机制。

总而言之，该研究对MLLMs的空间推理能力进行了深入探究，为未来人工智能的发展提供了宝贵的经验和方向。

联系作者

文章来源：人工智能学家
作者微信：
作者简介：致力成为权威的人工智能科技媒体和前沿科技研究机构

AIGC动态多模态大模型李飞飞空间推理空间智能谢赛宁

版权声明：atcat 发表于 2024-12-27 12:01:39。
转载请注明：谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理 | 86AIGC导航

暂无评论

暂无评论...

谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理

多模态 大语言模型的空间推理 能力研究

1. 研究背景与目标

2. 研究方法与数据

3. 主要发现

4. 模型局限性与未来方向

5. 研究意义与应用前景

6. 补充信息

联系作者

2个月，11亿大模型大单，讯飞狂赚

曝OpenAI布局实体机器人领域行业是否面临重新洗牌？

暂无评论

谢赛宁、李飞飞「空间智能」新作：多模态大模型仍难突破空间推理

多模态大语言模型的空间推理能力研究

1. 研究背景与目标

2. 研究方法与数据

3. 主要发现

4. 模型局限性与未来方向

5. 研究意义与应用前景

6. 补充信息

联系作者

2个月，11亿大模型大单，讯飞狂赚

曝OpenAI布局实体机器人领域 行业是否面临重新洗牌？

暂无评论

曝OpenAI布局实体机器人领域行业是否面临重新洗牌？