完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具

AI快讯 11小时前 atcat
0 0

Open-Sora 代表了开源视频生成领域的一次重大进步

完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码、权重及数据处理工具

原标题:完整复现Sora,Open-Sora最新技术报告发布,提供完整训练代码权重数据处理工具
文章来源:智猩猩GenAI
内容字数:12894字

Open-Sora:开源高效视频生成模型

本文总结了Open-Sora开源视频生成模型的研发成果,该模型能够支持文本生成图像文本生成视频以及图像生成视频等多种视觉生成任务。其核心在于高效的空间-时间扩散Transformer (STDiT)框架,通过解耦空间与时间的注意力机制,并结合高度压缩的3D自编码器,显著提升了训练效率和生成质量

1. 解决的问题与提出的方案

现有的视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面存在诸多挑战。Open-Sora旨在解决这些问题,它是一个开源的视频生成模型,支持多种视觉生成任务。通过STDiT框架解耦空间和时间注意力,并利用3D自编码器压缩表示,加速了训练过程。此外,项目还提供完整的训练代码、模型权重及数据处理工具,方便社区发展

2. 数据与预处理

Open-Sora使用了多个开源数据集,包括Webvid-10M、Panda-70M、HD-VG-130M、MiraData、Vript、Inter4K以及来自Pexels、Pixabay和Mixkit的视频,以及LAION和Unsplash-lite图像数据集。总计包含3000万个视频片段,总时长达8万小时。为了确保数据质量,建立了一套完整的数据处理pipeline,包括场景检测与视频剪辑、高质量视频过滤(基于美学评分和光流评分)、文本场景过滤以及视频字幕生成(使用GPT-4V和PLLaVA)。

3. 模型架构

Open-Sora的架构基于PixArt,采用T5文本编码器和STDiT框架。3D自编码器用于视频压缩,Open-Sora 1.2版本引入了一个受OpenAI Sora启发的视频压缩网络,在时间维度上实现了4倍压缩,提升了视频生成流畅性。模型使用了定制化的训练策略,包括多阶段训练和基于分桶的策略,以应对不同分辨率和长宽比的视频。

4. 训练策略与细节

Open-Sora的训练过程分为三个阶段:第一阶段使用Webvid-10M数据集进行初步训练;第二阶段使用Panda-70M数据集进行精细化训练;第三阶段使用高质量视频数据集进行高分辨率训练。训练过程中,采用了多种优化策略,例如身份损失、混合视频长度训练、随机遮罩策略以及QK正则化等,以提升模型性能和训练效率。最终模型能够生成最长15秒、分辨率最高720p的视频。

5. 模型适配与性能提升

Open-Sora从PixArt-Σ 2K checkpoint开始进行模型适配,通过多个阶段的微调,最终实现了高效的视频生成。适配过程包括多分辨率图像生成训练、QK正则化、修正流、logit-norm采样以及新VAE的引入,显著提升了训练和推理效率,并增强了模型的稳定性。最终模型在VBench分数上达到行业领先水平。

6. 结论

Open-Sora是一个具有里程碑意义的开源视频生成模型,它提供了全面的框架、高质量的数据处理工具和预训练模型权重,并成功复现了Sora报告中的关键技术,实现了高质量、长时长的视频生成。该项目推动了社区发展,并为该领域未来的研究奠定了坚实的基础。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

暂无评论

暂无评论...