JHU 陈杰能：世界模型+心智模型，让具身智能体拥有「想象力」

具身智能的高层感知，可以从认知科学突破。

原标题：JHU 陈杰能：世界模型+心智模型，让具身智能体拥有「想象力」
文章来源：AI 科技评论
内容字数：11233字

从医学影像到具身智能：GenEx与心智模型

本文介绍了约翰霍普金斯大学陈杰能博士及其团队的研究成果GenEx，一个能够让AI拥有“想象力”的世界模型。GenEx通过生成可交互的三维环境，辅助具身智能体进行更有效的决策，其核心在于模拟人类大脑中的认知方式和理解机制。

1. TransUNet与医学影像的黄金问题

陈杰能博士早期工作TransUNet，将Transformer与U-Net融合，在医学图像分割领域取得了显著成果，引用量超过5000。他选择医学影像领域，是因为其规模化的机会以及能够切实帮助到普通人的潜力。在达摩院医疗AI团队实习期间，他参与CancerUniT项目，致力于开发能够通过单次CT筛查多种癌症的AI模型，这被视为一个“黄金问题”，他希望尽力推动其早日应用。

2. 视觉基础模型与空间智能的探索

在字节跳动Seed团队，陈杰能博士主导设计了视觉编码器架构ViTamin，在ImageNet零样本准确率上达到SOTA。他随后转向空间智能领域，认为空间智能的核心在于从2D图像重建或推演出三维场景，这对于计算机视觉的突破至关重要。他指出，目前大模型在空间推理方面与人类能力仍存在较大差距。

3. GenEx：生成式世界探索者与心智模型的结合

GenEx系统包含两个组件：想象世界和具身智能体，两者构成一个共生系统。GenEx能够仅依据单张RGB图像生成整个三维连贯的想象环境，并支持智能体进行复杂任务，例如目标无关的探索和目标驱动的导航。GenEx的核心在于构建智能体的心智模型，模拟人类通过想象力探索未知环境的能力，并利用对未被观测部分的预测性预期来完善认知，做出更明智的选择。它还能扩展到多智能体场景，实现认知的相互更新。

4. 心智模型与世界模型的关联

陈杰能博士认为，心智模型和世界模型本质上是相关的，都基于过往经验和知识对未来状态进行预测。GenEx通过构建具备空间想象力的三维心智模型，辅助智能体在部分观测或缺失观测的场景下做出更精确的决策，提高决策模型的泛化能力。这不同于仅关注低层次策略鲁棒性的传统研究，而是着眼于高层次问题，为具身智能体提供更全面的认知能力。

5. 未来展望

陈杰能博士希望在空间智能和具身智能领域继续探索，将高层次的心智模型与低层次的策略结合，最终让智能体能够更好地理解和交互真实世界。

联系作者

文章来源：AI科技评论
作者微信：
作者简介：雷峰网旗下AI新媒体。聚焦AI前沿研究，关注AI工程落地。

AIGC动态世界模型心智模型具身AI推理具身智能想象力虚拟环境预训练陈杰能JHU

版权声明：atcat 发表于 2024-12-31 18:02:16。
转载请注明：JHU 陈杰能：世界模型+心智模型，让具身智能体拥有「想象力」 | 86AIGC导航

暂无评论

暂无评论...