生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

AI快讯 1个月前 atcat
0 0

场景视频生成又卷出新SOTA

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

原标题:生成越长越跑偏?浙大商汤新作StarGen场景视频生成告别「短片魔咒」
文章来源:机器之心
内容字数:5763字

浙江大学&商汤科技提出StarGen:解决长距离场景生成时空一致性难题

本文介绍了浙江大学章国锋教授和商汤科技研究团队联合发表的论文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。该论文针对复杂场景的长距离场景生成中时空一致性问题,提出了一种新颖的解决方案——StarGen。

1. StarGen的核心创新

StarGen的核心创新在于引入空间时间双重条件机制,将稀疏视图的3D几何信息与视频扩散模型有机结合,有效缓解了长距离生成中误差累积的问题。这使得StarGen能够实现多视一致的长视频生成,并支持稀疏视图插值、图生视频以及布局驱动场景生成等多种任务

2. 现有方法的局限性

现有的新视角生成方法主要分为重建模型生成模型和混合方法三类。重建模型依赖密集视角输入;生成模型如GAN在全局一致性方面表现不足,而扩散模型则受限于计算资源,难以生成高质量的长视频。混合方法虽然结合了重建和生成,但仍然存在误差累积等问题。

3. StarGen的系统框架

StarGen框架包含时空自回归框架、时空条件视频生成和下游任务实现三个部分。时空自回归框架采用滑动窗口的方式逐步生成长视频,利用时间条件图像和空间相邻图像保证时空一致性。时空条件视频生成则结合了大型重建模型(LRM)和视频扩散模型(VDM),通过ControlNet实现对生成内容的精确控制。

4. 损失函数设计

StarGen设计了深度损失、潜在损失和扩散损失三种损失函数,分别用于优化重建深度图精度、特征空间一致性和生成序列质量。

5. 实验结果与分析

实验结果表明,StarGen在稀疏视图插值、图生视频和基于布局的城市生成等任务上均显著优于现有方法。在稀疏视图插值任务中,StarGen在PSNR指标上表现突出;在图生视频任务中,StarGen生成的视频在视觉保真度和姿态精度上保持更佳的一致性;在基于布局的城市生成任务中,StarGen生成的场景布局一致性和细节保真度更高。消融实验也验证了空间和时间条件机制的有效性。

6. 总结

StarGen通过巧妙地结合空间和时间条件机制以及视频扩散模型,有效解决了长距离场景生成中的时空一致性难题,为高质量、可控的长视频生成提供了一种新的解决方案。其在多种下游任务上的优异表现也证明了该方法的有效性和广泛适用性。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

暂无评论

暂无评论...