突破性AI视频技术：1.3秒首帧延迟，9.4帧/秒实时生成！

0 0 5

网友：和美剧拍摄一个套路

原标题：AI视频边生成边播放！首帧延迟仅1.3秒，生成速度9.4帧/秒｜Adobe&MIT新研究
文章来源：量子位
内容字数：3217字

Adobe与MIT联合开发的CausVid 技术，标志着视频生成领域的一次重大突破。该技术通过实时生成视频，改变了传统的等待模式，使用户可以在生成过程中即时观看内容。

传统视频生成模型通常采用双向注意力机制，这意味着每一帧生成都需要依赖前后帧的信息。这种方式导致用户在观看视频时，往往需要等待几分钟才能看到完整内容，极大影响了用户体验。

CausVid通过蒸馏预训练的双向扩散模型（DiT），实现了自回归生成模型。这一技术允许在生成首帧后，用户即可开始观看视频，其余帧则在播放过程中动态生成，解决了传统模型的延迟问题。

为了进一步提高生成速度，研究团队采用了分布匹配蒸馏（DMD）技术，将生成步骤从50步缩减至4步，显著提升了视频生成的效率与质量。同时，通过非对称蒸馏策略，CausVid有效减少了自回归模型中的误差累积问题。

在实验中，CausVid的首帧生成延迟从3.5分钟降至1.3秒，生成速度从0.6帧/秒提升至9.4帧/秒，质量也超越了现有主流模型。研究团队表示，CausVid能支持多种应用，如图片动画化、实时视频风格转换和交互式剧情生成。

借助CausVid技术，未来视频生成将更加高效和灵活。该技术能够在大语言模型中广泛应用，结合滑动窗口机制，打破了传统模型在视频时长上的限制，预示着视频生成的全新可能性。

CausVid的推出为视频生成带来了革命性的变化，不仅提升了生成速度和质量，更拓展了视频应用的边界。随着开源代码的发布，预计会有更多开发者和研究者参与到这一领域，推动技术的进一步发展。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

暂无评论...