AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com世界模型被广泛认为是实现通用人工智能的关键技术,其核心能力在于模拟真实世界的动态变化,并为决策提供精准的未来状态预测。在自动驾驶领域,世界模型的应用尤为引人注目。然而,现有数据集在视频多样性和行为复杂性方面的不足,限制了世界模型潜力的全面发挥。为了解决这一瓶颈,中国科学院自动化研究所联合美团无人车团队推出了 DrivingDojo 数据集 —— 全球规模最大、专为自动驾驶世界模型研究设计的高质量视频数据集。该数据集已被 NeurIPS 2024 的 Dataset Track 接收。网站:https://drivingdojo.github.io/论文:https://arxiv.org/pdf/2410.10738代码:https://github.com/Robertwyq/Drivingdojo世界模型的核心在于交互、知识以及泛化世界模型刻画了智能体在当前状态下采取特定动作之后环境状态所有可能的变化的分布。相比于单纯关注于生成的图像质量,我们认为其他道路参与者的行为(other agents behavior)以及整体的世界动态(general world dynamics)也同样值得关注,即世界模型的交互、知识以及泛化能力。交互:世界模型应具备合理预测动态交互行为的能力。例如,在自动驾驶场景中,系统需要准确预测自车与行人或其他道路使用者之间的交互。除了理解静态环境的变化,更重要的是能够提供动态反馈,以支持系统在复杂场景中的应对。知识:世界模型应具备对环境中世界知识的深刻理解。例如,在自动驾驶场景中,系统需要能够理解红绿灯、升降杆等关键场景元素,以便作出恰当的驾驶决策。然而,仅通过像素级重建是否能准确建模这些知识仍然存在疑问,因此引入语言模型成为提升系统理解能力的关键手段。泛化:世界模型的预测能力应能够扩展到新的未知场景,尤其是各种长尾场景,如稀有事件或极端环境下的驾驶表现。这种泛化能力是确保模型在真实世界中稳定运行的关键。DrivingDojo 数据集DrivingDojo 数据集相较于传统的感知数据集,经过精心的挖掘与筛选,更加注重视频多样性的设计。从掉落的水桶、倒下的栅栏,到突然窜出的动物、夜晚的篝火、路上的羊群,包含了海量的长尾驾驶场景,为世界模型的研究提供了坚实的基础。DrivingDojo 数据集包含大约 18k 个视频,平均时长约为 20 秒。整个数据集可以划分为三个子集,分别聚焦于驾驶行为、动态交互和世界知识的探索。驾驶行为:还原真实驾驶操作的多样性我们精心构建了一个名为 DrivingDojo-Action 的子集,全面覆盖驾驶操作的多样化场景,呈现纵向与横向行为的均衡分布:纵向操作:包含加速、减速、紧急刹车和起停驾驶,精准展现车辆在速度调控中的动态表现。横向操作:涵盖变道和车道保持,细致描绘车辆在空间选择和路径优化中的决策能力。动态交互:捕捉复杂交通中的行为模式除了在静态道路网络环境中进行导航外,建模多智能体之间的动态交互(如并入和让行)也是世界模型的一个关键任务。我们精心挖掘了这一子集,比如并线、会车、被阻挡、超车、被超车。这一子集为世界模型提供了丰富的交互场景,助力其更好地应对复杂的交通环境。世界知识:赋能开放世界的智能理解不同于感知和预测模型通过将高维传感器输入压缩为低维向量表示,世界模型在像素空间中运行,展现出更强的场景建模能力。这种增强的能力使得世界模型能够有效捕捉开放世界驾驶场景中的复杂动态,例如动物突然横穿马路或货物从车辆后备厢掉落等意外情况。通过在像素层面上的深度理解,世界模型为处理复杂交通情境提供了更可靠的基础。推动智能交互与知识驱动的自动驾驶世界模型真实多样的驾驶场景生成轨迹控制的视频生成给定初始帧和轨迹,世界模型预测未来的情景预测不同的未来情景我们提出了运动指令跟随的视频预测任务,这也是世界模型的核心。以往的研究主要依赖于定性观察,而在实际驾驶中,控制精度需要通过定量指标进行评估。由于生成视频中缺少真实轨迹,我们采用了 COLMAP 重建方法对生成的轨迹进行重建,从而实现粗略的定量评测。利用 COLMAP 估计生成视频的轨迹生成能力的泛化与以往在同一数据集上进行的生成测试相比,我们认为跨数据集的测试更为重要,这更好地体现了模型的泛化生成能力。在测试过程中,我们选择了 OpenDV 的子集来进行评估。我们也期望模型具备良好的泛化能力:如运动行为的泛化,以及跨数据集的运动行为泛化。1. 异常行为生成 2. 在 nuScenes 数据集实现倒车交互行为的预测这一部分的核心在于探索世界模型是否能够根据不同行为的输入预测智能体之间的交互动态。以下示例中,当自车选择停车时,模型预测右前方的车辆会抢占道路进行超车;而当自车选择继续前行时,模型则预测右前方的车辆会等待自车先通过。长时间高质量驾驶视频生成©THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com
暂无评论...