Open-Sora 代表了开源视频生成领域的一次重大进步
原标题:完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具
文章来源:智猩猩GenAI
内容字数:12894字
Open-Sora:开源高效视频生成模型
本文总结了Open-Sora开源视频生成模型的研发成果,该模型能够支持文本生成图像、文本生成视频以及图像生成视频等多种视觉生成任务。其核心在于高效的空间-时间扩散Transformer (STDiT)框架,通过解耦空间与时间的注意力机制,并结合高度压缩的3D自编码器,显著提升了训练效率和生成质量。
1. 解决的问题与提出的方案
现有的视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面存在诸多挑战。Open-Sora旨在解决这些问题,它是一个开源的视频生成模型,支持多种视觉生成任务。通过STDiT框架解耦空间和时间注意力,并利用3D自编码器压缩表示,加速了训练过程。此外,项目还提供完整的训练代码、模型权重及数据处理工具,方便社区发展。
2. 数据与预处理
Open-Sora使用了多个开源数据集,包括Webvid-10M、Panda-70M、HD-VG-130M、MiraData、Vript、Inter4K以及来自Pexels、Pixabay和Mixkit的视频,以及LAION和Unsplash-lite图像数据集。总计包含3000万个视频片段,总时长达8万小时。为了确保数据质量,建立了一套完整的数据处理pipeline,包括场景检测与视频剪辑、高质量视频过滤(基于美学评分和光流评分)、文本场景过滤以及视频字幕生成(使用GPT-4V和PLLaVA)。
3. 模型架构
Open-Sora的架构基于PixArt,采用T5文本编码器和STDiT框架。3D自编码器用于视频压缩,Open-Sora 1.2版本引入了一个受OpenAI Sora启发的视频压缩网络,在时间维度上实现了4倍压缩,提升了视频生成流畅性。模型使用了定制化的训练策略,包括多阶段训练和基于分桶的策略,以应对不同分辨率和长宽比的视频。
4. 训练策略与细节
Open-Sora的训练过程分为三个阶段:第一阶段使用Webvid-10M数据集进行初步训练;第二阶段使用Panda-70M数据集进行精细化训练;第三阶段使用高质量视频数据集进行高分辨率训练。训练过程中,采用了多种优化策略,例如身份损失、混合视频长度训练、随机遮罩策略以及QK正则化等,以提升模型性能和训练效率。最终模型能够生成最长15秒、分辨率最高720p的视频。
5. 模型适配与性能提升
Open-Sora从PixArt-Σ 2K checkpoint开始进行模型适配,通过多个阶段的微调,最终实现了高效的视频生成。适配过程包括多分辨率图像生成训练、QK正则化、修正流、logit-norm采样以及新VAE的引入,显著提升了训练和推理效率,并增强了模型的稳定性。最终模型在VBench分数上达到行业领先水平。
6. 结论
Open-Sora是一个具有里程碑意义的开源视频生成模型,它提供了全面的框架、高质量的数据处理工具和预训练模型权重,并成功复现了Sora报告中的关键技术,实现了高质量、长时长的视频生成。该项目推动了社区发展,并为该领域未来的研究奠定了坚实的基础。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。