中科院联合美团推出的交互式驾驶世界模型数据集

产品名称：DrivingDojo
产品简介：DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集，用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18，000个视频片段，覆盖完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识，为开发下一代自动驾驶模型提供了坚实的基础。
详细介绍：

DrivingDojo是什么

DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集，用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18，000个视频片段，覆盖完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识，为开发下一代自动驾驶模型提供了坚实的基础。DrivingDojo定义了动作指令跟随（AIF）基准，用在评估世界模型在执行动作控制的未来预测方面的能力。

DrivingDojo的主要功能

交互式世界模型训练：DrivingDojo提供一个平台，用在训练理解和模拟复杂驾驶动态的交互式世界模型。
动作指令跟随（AIF）：数据集定义AIF基准，评估世界模型在遵循动作指令生成未来预测的能力。
多样化驾驶操作：基于DrivingDojo-Action子集，模型学习加速、减速、紧急制动和车道变换等多样化的驾驶操作。
多智能体交互：用DrivingDojo-Interplay子集，模型能理解和预测车辆与其他道路使用者之间的复杂交互。
开放世界知识：用DrivingDojo-Open子集，模型学习处理开放世界中的罕见事件和长尾场景。
视频生成与预测：模型基于初始帧和动作指令生成未来的视频，模拟和预测驾驶场景。

DrivingDojo的技术原理

数据收集：用美团无人车团队的自动驾驶车辆平台收集视频数据，。
数据策划：从大量收集的数据中精选出包含丰富驾驶操作、多智能体交互和开放世界知识的视频片段。
动作编码：将驾驶动作（如加速、制动、转向）编码为模型能理解的格式，方便在视频生成中使用。
视频生成模型：基于如Stable Video Diffusion等技术，开发从初始帧和动作指令生成视频的模型。
动作指令跟随（AIF）：比较生成视频与输入动作指令的一致性，评估模型的预测准确性。
评估指标：用FID（Frechet Inception Distance）和FVD（Frechet Video Distance）等指标评估生成视频的视觉质量，用AIF错误评估动作指令的跟随能力。