多模态大语言模型的空间推理能力研究
本文总结了纽约大学谢赛宁团队的研究,该研究探索了多模态大语言模型(MLLMs)在视觉空间智能方面的能力。研究发现,虽然MLLMs在空间推理方面仍有很大提升空间,但它们已经展现出一定的“空间意识”和局部世界模型构建能力。
1. 研究背景与目标
人类拥有强大的视觉空间智能,能够通过连续的视觉观察记忆空间并进行推理。研究团队旨在探究MLLMs是否也能从视频中进行“空间思维”,并评估其空间推理能力。他们关注MLLMs如何“看见、记忆和回忆空间”。
2. 研究方法与数据
研究团队利用现有的空间扫描视频及其ground-truth标注,自动生成视觉问答(VQA)问题,并由人工进行质量控制。他们构建了一个新的基于视频的视觉空间智能基准(VSI-Bench),包含5000多个问答对,涵盖了各种视觉空间智能任务(关系任务和度量任务)。
3. 主要发现
研究发现,即使是性能最好的Gemini Pro模型,其空间推理能力也远低于人类。常见的语言推理技术(如思维链、自洽性、思维树)无法提升MLLMs的空间推理能力,反而可能降低准确率。MLLMs在视角转换、自我中心转换和长视野追踪方面存在困难。它们倾向于构建一系列局部世界模型,而非一个连贯的全局模型,这限制了其处理远距离物体关系的能力。
4. 模型局限性与未来方向
研究表明,空间推理能力,而非物体识别或语言能力,是MLLMs在视觉空间智能任务中的主要瓶颈。 MLLMs在处理空间信息时,缺乏人类可以调整和完善心智模型的能力。未来研究方向应集中在开发更有效的空间记忆机制,以提升MLLMs的空间推理能力。
5. 研究意义与应用前景
这项研究揭示了MLLMs在视觉空间智能方面的局限性和潜力。它强调了视觉空间智能与语言智能的差异,并为未来开发更强大的空间推理模型指明了方向。 研究团队相信,视觉空间智能在现实世界中的应用即将到来,例如,人工智能眼镜可以帮助用户导航和定位。
6. 补充信息
研究中使用的视频以2倍速播放,Gemini-1.5 Pro模型在所有空间推理问题上均未答对。研究团队通过提示模型在笛卡尔网格上“可视化”其记忆来探究模型内部的工作机制。
总而言之,该研究对MLLMs的空间推理能力进行了深入探究,为未来人工智能的发展提供了宝贵的经验和方向。
联系作者
文章来源:人工智能学家
作者微信:
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构