智源研究院开源的无标注视频学习3D生成模型

产品名称：See3D
产品简介：See3D（See Video， Get 3D）是北京智源人工智能研究院推出的3D生成模型，能基于大规模无标注的互联网视频进行学习，实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同，See3D采用视觉条件技术，仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
详细介绍：

See3D是什么

See3D（See Video， Get 3D）是北京智源人工智能研究院推出的3D生成模型，能基于大规模无标注的互联网视频进行学习，实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同，See3D采用视觉条件技术，仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。避免了昂贵的3D或相机标注的需求，能高效地从互联网视频中学习3D先验。See3D支持从文本、单视图和稀疏视图到3D的生成，能进行3D编辑与高斯渲染。

See3D的主要功能

从文本、单视图和稀疏视图到3D的生成：See3D能根据文本描述、单个视角的图片或少量图片生成3D内容。
3D编辑与高斯渲染：模型支持对生成的3D内容进行编辑，使用高斯渲染技术来提高渲染效果。
解锁3D互动世界：输入图片后，可以生成沉浸式可交互的3D场景，支持用户实时探索真实空间结构。
基于稀疏图片的3D重建：输入少量图片（3-6张），模型能生成精细化的3D场景。
开放世界3D生成：根据文本提示，模型可以生成艺术化的图片，基于此图片生成虚拟化的3D场景。
基于单视图的3D生成：输入一张真实场景的图片，模型能生成逼真的3D场景。

See3D的技术原理

视觉条件技术：See3D不依赖于传统的相机参数，采用视觉条件技术，通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。
大规模无标注视频学习：See3D能从互联网视频中高效学习3D先验，不依赖于昂贵的3D或相机标注。
数据集构建：团队构建了一个高质量、多样化的大规模多视角图像数据集WebVi3D，涵盖来自1600万个视频片段的3.2亿帧图像，数据集可以通过自动化流程随互联网视频量的增长不断扩充。
多视图扩散模型训练：See3D引入了一种新的视觉条件，通过向掩码视频数据添加时间依赖噪声，生成纯粹的2D归纳视觉信号，支持可扩展的多视图扩散模型（MVD）训练，避免了对相机条件的依赖，实现了“仅通过视觉获得3D”的目标。
3D生成框架：See3D学到的3D先验能使一系列3D创作应用成为可能，包括基于单视图的3D生成、稀疏视图重建以及开放世界场景中的3D编辑等，支持在物体级与场景级复杂相机轨迹下的长序列视图的生成。