VSI-Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集
VSI-Bench是一种全新的视觉空间智能基准测试集,由李飞飞、谢赛宁及其研究团队共同开发,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集涵盖了超过5000个问题-答案对,基于近290个真实室内场景视频,涉及住宅、办公室以及工厂等多种环境。VSI-Bench的设计包括多种任务类型,如配置型任务、测量估计和时空任务,旨在系统性地测试和提升MLLMs的视觉空间智能表现。
VSI-Bench是什么
VSI-Bench(Visual-Spatial Intelligence Benchmark)是由李飞飞、谢赛宁及其研究团队推出的一项视觉空间智能基准测试集,专门用于评估多模态大型语言模型(MLLMs)在空间认知与理解能力方面的表现。该测试集包含超过5000个问答对,基于近290个真实室内场景视频,涵盖住宅、办公室和工厂等多种环境。VSI-Bench的任务类型多样,包括配置型任务(如物体计数和相对距离)、测量估计(如物体尺寸和房间大小)以及时空任务(如物体出现顺序),旨在系统地测试和提高MLLMs在视觉空间智能方面的能力。
VSI-Bench的主要功能
- 视觉空间智能评估:量化多模态大型语言模型(MLLMs)在视觉空间智能上的表现,包括空间关系的感知、理解及记忆能力。
- 标准化基准测试:提供一个包含5000多个问答对的标准化测试集,用于基准测试和不同MLLMs在视觉空间任务中的性能比较。
- 任务多样性:涵盖配置型任务(如物体计数、相对距离、相对方向和路线规划)、测量估计(如物体尺寸、房间大小和绝对距离)以及时空任务(如物体出现顺序),全面反映视觉空间智能的多个维度。
- 视频理解能力:通过视频输入测试MLLMs对连续时间性信息的理解,模拟人类观察世界的方式,相较于静态图像更具真实性。
- 数据质量控制:通过人工审核确保数据的高质量,有效消除歧义和错误标注,从而提高测试结果的可信度。
VSI-Bench的技术原理
- 数据集构建:基于多个公共室内3D场景重建数据集(如ScanNet、ScanNet++和ARKitScenes),提供高保真度的视频扫描和对象级别的3D注释。
- 问题-答案对生成:利用数据集中的元信息(如对象类别和边界框)和问题模板自动生成问答对,同时对路线规划任务进行人工标注。
- 质量控制措施:实施人工审核流程,确保问题的清晰性和无歧义性,对错误或模糊的问题进行追溯和修正。
- 模型评估方法:在零样本设置下评估多种视频支持的MLLMs,采用默认提示进行测试,并使用精确匹配和模糊匹配作为主要评估标准。
- 性能指标设定:针对多项选择题(MCA)任务使用准确度(ACC),对于数值答案(NA)任务引入新的度量标准——平均相对准确度(MRA)。
- 认知图生成:引导MLLMs预测视频中对象的中心位置,从而生成认知图,评估模型的内部空间表示和记忆能力。
VSI-Bench的项目地址
- 项目官网:vision-x-nyu.github.io/thinking-in-space
- GitHub仓库:https://github.com/vision-x-nyu/thinking-in-space
- HuggingFace模型库:https://huggingface.co/datasets/nyu-visionx/VSI-Bench
- arXiv技术论文:https://arxiv.org/pdf/2412.14171
VSI-Bench的应用场景
- 机器人导航与人机交互:在机器人技术领域,通过评估和训练MLLMs,提升其对空间布局的理解,增强机器人在未知环境中的导航与避障能力。
- 增强现实(AR)与虚拟现实(VR):在AR和VR应用中,帮助MLLMs更好地理解用户的物理空间环境,从而提供更加自然的交互体验。
- 自动驾驶技术:自动驾驶系统需具备精准的空间理解能力,以应对复杂交通场景,VSI-Bench为支持自动驾驶的视觉空间智能系统的开发与测试提供了基础。
- 智能家居技术:智能家居系统需要能够理解居住空间的布局及物置,VSI-Bench帮助训练MLLMs,以提升其在智能家居控制及自动化方面的表现。
- 室内设计与建筑规划:评估MLLMs在空间规划和设计方面的应用,助力系统提供更合理的布局建议。
暂无评论...