多伦多大学、Snap、UCLA联合推出
Wonderland: 从单张图像生成高质量、广范围3D场景
多伦多大学、Snap和UCLA的研究团队推出了一款名为Wonderland的全新模型,实现了基于单张图像生成高质量、广范围3D场景的突破性进展。该模型首次证明了三维重建模型可以有效地建立在扩散模型的潜在空间上,从而高效地生成3D场景,堪称单视图3D场景生成领域的里程碑。
1. 技术突破:关键创新
传统的3D重建技术依赖多视角数据或逐个场景优化,在处理背景和不可见区域时容易失真。Wonderland则创新性地结合了视频生成模型和大规模3D重建模型,克服了这些局限性:
向视频扩散模型中嵌入3D意识:通过相机位姿控制,Wonderland在视频潜在空间中嵌入了场景的多视角信息,并保证了3D一致性。视频生成模型精确地遵循相机轨迹,将单张图像扩展为包含丰富空间关系的多视角视频。
双分支相机控制机制:利用ControlNet和LoRA模块,Wonderland精确控制视频生成过程中的相机视角变化,显著提升了多视角视频的质量、几何一致性和静态特征。
大规模latent-based 3D重建模型(LaLRM):Wonderland引入了LaLRM,直接利用视频生成模型生成的潜在信息(latent)进行3D场景重建(前馈重建)。渐进式训练策略将潜在空间信息转化为3D高斯点分布(3DGS),降低了内存需求和重建时间成本,实现了图像空间与三维空间的高效连接。
2. 效果展示:视频和3D场景生成
Wonderland能够基于单张图像和相机轨迹精确控制视角,生成高质量、几何一致的视频,并具有很强的泛化能力,适用于各种复杂的轨迹和风格的输入图片。 它还能基于单张图像,利用LaLRM生成高质量、广阔的3D场景,深度探索场景细节。
3. 卓越性能:高效且高质量
Wonderland在视觉质量、生成效率和适用性方面均表现卓越。实验结果显示,其在视角控制、视频质量、3D重建几何一致性、渲染图像质量和端到端生成速度等方面均超越现有方法。 它支持零样本3D场景生成,能够高效生成广范围的复杂场景,并具有高度的几何一致性和泛化性。 使用单张A100显卡,Wonderland只需约5分钟即可生成完整的3D场景,效率远超现有技术。
4. 应用场景:广泛的应用潜力
Wonderland为视频和3D场景创作提供了崭新的解决方案,在建筑设计、虚拟现实、影视特效和游戏开发等领域具有广阔的应用前景。其精确的视频位姿控制和高清晰度的广视角3D场景生成能力,能够满足复杂场景对高质量内容的需求。
5. 未来展望:持续改进与完善
尽管Wonderland表现优异,但研发团队仍将致力于提升其对动态场景的适配能力和对真实场景细节的还原度,以推动单视图3D场景生成技术的进步,并促进视频生成与3D技术在实际应用中的广泛普及。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破