赋能2D模型：北大Lift3D打造强大的3D操控新纪元

3D 几何 信息对于机器人操纵任务至关重要。

原标题：3D具身基础模型！北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力
 文章来源：机器之心
内容字数：12969字

Lift3D 是一项旨在提升 2D 大规模预训练模型在 3D 机器人操纵任务中的表现的研究。该项目由北京大学和北京智源研究院的团队共同开发，致力于解决当前机器人操纵中面临的空间几何信息提取不足和数据稀缺的问题。

Lift3D 通过两种方式增强了 2D 模型的 3D 空间感知能力：隐式 3D 表示和显式 3D 表示。隐式表示通过设计任务感知的掩码自编码器，利用深度几何信息重建来提升 2D 模型的表达能力；显式表示则通过建立 3D 点云数据与 2D 位置编码的映射关系，直接编码点云进行模仿学习。

研究团队在多个仿真环境和真实场景中进行了广泛的实验，包括 MetaWorld、Adroit 和 RLBench 等多个操纵任务。Lift3D 在这些任务中表现出色，尤其是在灵巧手操作中，证明了其优越的鲁棒性和泛化能力。

在 MetaWorld 的基准测试中，Lift3D 达到了 83.9 的平均成功率，显著提高了相较于现有 2D 和 3D 方法的表现。在真实世界实验中，Lift3D 仅需 30 个示例便可学习新技能，显示出其卓越的学习效率。

Lift3D 展现出强大的泛化能力，能够适应不同的操作物体、背景场景和光照条件。通过增加模型参数，Lift3D 的表现进一步提升，验证了其良好的可扩展性。

本研究提出的 Lift3D 方法有效地增强了 2D 模型在 3D 机器人操纵中的应用潜力，展现了显著的操作能力和广泛的适用性，为未来的研究提供了新的思路和方向。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

暂无评论...