多重可控插帧视频生成编辑,Adobe这个大一统模型做到了,效果惊艳

AI快讯 1个月前 atcat
0 0

MotionBridge 第一次进行了统一多模态可控插帧视频模型的尝试。

多重可控插帧视频生成编辑,Adobe这个大一统模型做到了,效果惊艳

原标题:多重可控插帧视频生成编辑Adobe这个大一统模型做到了,效果惊艳
文章来源:机器之心
内容字数:5396字

Adobe MotionBridge:统一多模态可控视频生成模型

本文介绍了Adobe Research提出的一个名为MotionBridge的统一多模态可控视频生成模型,该模型能够根据多种模态的控制信号生成或编辑视频,显著提升了视频生成的灵活性和可控性。

1. 模型概述及优势

MotionBridge是一个基于插帧的模型,能够处理1到n张关键帧,生成流畅的视频。与传统的图生视频方法相比,它具有更高的可控性和生成质量。它解决了传统插帧方法在处理大动作和细节控制方面的不足,能够生成更复杂、更符合用户意图的视频。

2. 多模态控制能力

MotionBridge支持多种模态的控制,包括:

  1. 轨迹(sparse trajectory): 通过简单的轨迹笔画控制物体
  2. 掩码(Mask): 指定物体移动或静止区域,精确控制镜头视角和物体范围。
  3. 引导像素(guiding pixels): 精确控制特定像素区域在指定帧的位置,实现精准的像素级控制。
  4. 关键帧(keyframes): 提供关键帧,模型生成中间帧实现场景平滑切换。
  5. 文本 支持文本交互。

这些多模态控制能力使得MotionBridge能够生成各种类型的视频,包括动画、卡通视频等,并能对现有视频进行编辑和改进。

3. 技术要点

MotionBridge的几个关键技术点包括:

  1. 分类编码控制信号: 将控制信号分为内容控制和控制两类,分别处理,减少歧义。
  2. 轨迹表征: 从光流合成轨迹,并将其转换为稀疏RGB点,提高控制精度。
  3. 空间内容控制表征: 引入掩码和引导像素等空间内容控制,提升创作灵活度。
  4. 课程学习(curriculum learning)策略 先训练简单的控制,再逐步过渡到复杂的控制,提高模型学习效率

4. 实验结果

实验结果表明,MotionBridge在生成质量和可控性方面均优于现有SOTA算法。消融实验验证了分类编码融合和课程学习策略的有效性,以及掩码在提高模型理解和用户交互效率方面的作用。

5. 结论

MotionBridge是一个具有突破性的统一多模态可控视频生成模型,它为视频创作和编辑提供了强大的工具,并为未来的视频生成研究提供了新的方向。 其强大的控制能力和生成质量,使其在动画制作、视频合成等领域具有广阔的应用前景。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

暂无评论

暂无评论...