突破性AI视频技术:1.3秒首帧延迟,9.4帧/秒实时生成!


网友:和美剧拍摄一个套路

突破性AI视频技术:1.3秒首帧延迟,9.4帧/秒实时生成!

原标题:AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究
文章来源:量子
内容字数:3217字

引言

Adobe与MIT联合开发的CausVid技术,标志着视频生成领域的一次重大突破。该技术通过实时生成视频,改变了传统的等待模式,使用户可以在生成过程中即时观看内容。

1. 传统视频生成的挑战

传统视频生成模型通常采用双向注意力机制,这意味着每一帧生成都需要依赖前后帧的信息。这种方式导致用户在观看视频时,往往需要等待几分钟才能看到完整内容,极大影响了用户体验。

2. CausVid的创新解决方案

CausVid通过蒸馏预训练的双向扩散模型(DiT),实现了自回归生成模型。这一技术允许在生成首帧后,用户即可开始观看视频,其余帧则在播放过程中动态生成,解决了传统模型的延迟问题

3. 提升生成速度质量

为了进一步提高生成速度,研究团队采用了分布匹配蒸馏(DMD)技术,将生成步骤从50步缩减至4步,显著提升了视频生成的效率与质量。同时,通过非对称蒸馏策略,CausVid有效减少了自回归模型中的误差累积问题。

4. 实验效果显著

在实验中,CausVid的首帧生成延迟从3.5分钟降至1.3秒,生成速度从0.6帧/秒提升至9.4帧/秒,质量也超越了现有主流模型。研究团队表示,CausVid能支持多种应用,如图片动画化、实时视频风格转换和交互式剧情生成。

5. 未来展望

借助CausVid技术,未来视频生成将更加高效和灵活。该技术能够在大语言模型中广泛应用,结合滑动窗口机制,打破了传统模型在视频时长上的限制,预示着视频生成的全新可能性。

结论

CausVid的推出为视频生成带来了革命性的变化,不仅提升了生成速度和质量,更拓展了视频应用的边界。随着开源代码的发布,预计会有更多开发者和研究者参与到这一领域,推动技术的进一步发展。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

版权声明:atcat 发表于 2024-12-11 12:04:07。
转载请注明:突破性AI视频技术:1.3秒首帧延迟,9.4帧/秒实时生成! | 86AIGC导航

暂无评论

暂无评论...