RoboVLMs 的出现,验证了视觉语言动作模型的可能性。
机器之心AIxiv专栏:RoboVLMs——解锁视觉语言动作模型的无限可能
本文介绍了清华大学、字节跳动、中科院自动化所、上海交通大学和新加坡国立大学的研究人员提出的全新视觉语言动作模型(Vision-Language-Action Models,VLAs)——RoboVLMs。该模型在多个模拟和真实机器人实验中取得了优异的性能,为机器人领域带来了新的突破。
1. VLA模型的必要性
研究表明,设计合理的VLA模型不仅能够轻松完成常见操作任务,还能在陌生场景中保持稳定性能。RoboVLMs在CALVIN和SimplerEnv模拟环境中取得了领先的成功率和泛化能力,在真实机器人果蔬分类任务中也展现了其优越性,即使面对干扰环境和未见过的场景也能出色完成任务。
2. 靠谱的VLA架构设计
文章探讨了VLA架构设计的关键因素,包括动作空间、历史信息以及历史信息组织模块。实验结果表明,使用连续动作空间、多步历史信息以及专门的历史信息组织模块能够显著提升模型性能和泛化能力。基于KosMos基座模型并结合专门的历史信息组织模块的架构设计在CALVIN环境中展现了出色的泛化能力。
3. 最合适的基座模型选择
研究人员对比了8种主流视觉语言模型(VLM),发现KosMos和Paligemma表现突出,显著优于其他模型。这主要归功于其强大的视觉语言预训练,为模型提供了丰富的先验知识和理解能力。选择合适的预训练VLM基座是提升VLA模型性能的关键。
4. 跨本体数据的最佳引入时机
实验结果显示,在预训练阶段引入跨本体数据(如Open-X Embodiment数据集)能够显著提升模型的鲁棒性和少样本学习能力。而直接将跨本体数据与微调数据混合训练效果并不理想。在WidowX+Bridge和Google Robot环境下的实验进一步验证了这一结论,表明在预训练阶段引入跨本体数据是提升模型泛化能力和应对复杂任务的关键。
5. 未来展望
RoboVLMs的成功为视觉语言动作模型的发展提供了新的方向。未来研究可以进一步优化模型设计,例如改进VLM内部结构、信息融合模块和训练目标;挑战更复杂的机器人任务,例如多步骤任务;以及提升多模态协作能力,让机器人能够更好地理解和响应多模态信息。
总而言之,RoboVLMs的出现为机器人技术带来了新的可能性,使其更接近成为人类的全能助手。未来,视觉语言动作模型有望在更广泛的领域发挥作用,帮助我们完成更多复杂的任务。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台