具身智能的高层感知,可以从认知科学突破。
从医学影像到具身智能:GenEx与心智模型
本文介绍了约翰霍普金斯大学陈杰能博士及其团队的研究成果GenEx,一个能够让AI拥有“想象力”的世界模型。GenEx通过生成可交互的三维环境,辅助具身智能体进行更有效的决策,其核心在于模拟人类大脑中的认知方式和理解机制。
1. TransUNet与医学影像的黄金问题
陈杰能博士早期工作TransUNet,将Transformer与U-Net融合,在医学图像分割领域取得了显著成果,引用量超过5000。他选择医学影像领域,是因为其规模化的机会以及能够切实帮助到普通人的潜力。在达摩院医疗AI团队实习期间,他参与CancerUniT项目,致力于开发能够通过单次CT筛查多种癌症的AI模型,这被视为一个“黄金问题”,他希望尽力推动其早日应用。
2. 视觉基础模型与空间智能的探索
在字节跳动Seed团队,陈杰能博士主导设计了视觉编码器架构ViTamin,在ImageNet零样本准确率上达到SOTA。他随后转向空间智能领域,认为空间智能的核心在于从2D图像重建或推演出三维场景,这对于计算机视觉的突破至关重要。他指出,目前大模型在空间推理方面与人类能力仍存在较大差距。
3. GenEx:生成式世界探索者与心智模型的结合
GenEx系统包含两个组件:想象世界和具身智能体,两者构成一个共生系统。GenEx能够仅依据单张RGB图像生成整个三维连贯的想象环境,并支持智能体进行复杂任务,例如目标无关的探索和目标驱动的导航。GenEx的核心在于构建智能体的心智模型,模拟人类通过想象力探索未知环境的能力,并利用对未被观测部分的预测性预期来完善认知,做出更明智的选择。它还能扩展到多智能体场景,实现认知的相互更新。
4. 心智模型与世界模型的关联
陈杰能博士认为,心智模型和世界模型本质上是相关的,都基于过往经验和知识对未来状态进行预测。GenEx通过构建具备空间想象力的三维心智模型,辅助智能体在部分观测或缺失观测的场景下做出更精确的决策,提高决策模型的泛化能力。这不同于仅关注低层次策略鲁棒性的传统研究,而是着眼于高层次问题,为具身智能体提供更全面的认知能力。
5. 未来展望
陈杰能博士希望在空间智能和具身智能领域继续探索,将高层次的心智模型与低层次的策略结合,最终让智能体能够更好地理解和交互真实世界。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。