全新的模型Wonderland。
Wonderland:从单张图像生成高质量3D场景的突破性进展
机器之心AIxiv专栏报道了多伦多大学、Snap Inc.和UCLA研究团队的最新成果——Wonderland模型。该模型能够从单张图像生成高质量、广范围的3D场景,在单视图3D场景生成领域取得了突破性进展。
1. 技术突破:高效高质量的大规模3D场景生成
传统的3D重建技术依赖多视角数据或逐个场景优化,处理背景和不可见区域时易失真。Wonderland创新性地结合视频生成模型和大规模3D重建模型(LaLRM),解决了这些问题。它通过向视频扩散模型嵌入相机位姿控制,在视频latent空间中嵌入场景的多视角信息,保证3D一致性。双分支相机控制机制(ControlNet和LoRA模块)精确控制相机视角变化,提升了多视角视频的质量、几何一致性和静态特征。LaLRM利用视频生成模型生成的latent直接重构3D场景,并采用高效的逐步训练策略,将信息转化为3D高斯点分布(3DGS),降低了内存需求和重建时间成本。
2. 效果展示:精确的视角控制和高质量的3D场景生成
Wonderland实现了基于单张图像和相机条件的精确视角控制视频生成。Camera-guided视频生成模型能够精确遵循轨迹条件,生成3D几何一致的高质量视频,并具有很强的泛化性。基于单张图像和LaLRM,Wonderland能够生成高质量、广阔的3D场景。无论是单张图像输入,还是结合多条相机轨迹,Wonderland都能深度探索并生成高质量的3D场景,其渲染结果展示了卓越的视觉效果。
3. 卓越性能:超越现有方法的多个维度
Wonderland在视觉质量和生成效率等多个维度上表现卓越。实验结果显示,其在视角控制、视频质量、3D重建几何一致性、渲染图像质量和端到端生成速度上均优于现有方法。它实现了Zero-shot 3D场景生成,能够高效生成广范围的复杂场景,并具有高度的几何一致性和泛化性。效率方面,Wonderland在单张A100上仅需约5分钟即可生成完整的3D场景,显著快于现有方法。
4. 应用场景:视频和3D场景内容创作的新工具
Wonderland为视频和3D场景创作提供了一种崭新的解决方案,在建筑设计、虚拟现实、影视特效和游戏开发等领域具有广阔的应用潜力。其精确的视频位姿控制和广视角、高清晰度的3D场景生成能力,能够满足复杂场景中对高质量内容的需求。
5. 未来展望:持续改进和完善
研究团队将继续努力优化模型,例如提升对动态场景的适配能力和对真实场景细节的还原度,推动单视图3D场景生成技术的进步,并促进视频生成与3D技术在实际应用中的广泛普及。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台