MotionBridge 第一次进行了统一多模态可控插帧视频模型的尝试。
Adobe MotionBridge:统一多模态可控视频生成模型
本文介绍了Adobe Research提出的一个名为MotionBridge的统一多模态可控视频生成模型,该模型能够根据多种模态的控制信号生成或编辑视频,显著提升了视频生成的灵活性和可控性。
1. 模型概述及优势
MotionBridge是一个基于插帧的模型,能够处理1到n张关键帧,生成流畅的视频。与传统的图生视频方法相比,它具有更高的可控性和生成质量。它解决了传统插帧方法在处理大动作和细节控制方面的不足,能够生成更复杂、更符合用户意图的视频。
2. 多模态控制能力
MotionBridge支持多种模态的控制,包括:
- 轨迹(sparse trajectory): 通过简单的轨迹笔画控制物体。
- 掩码(Mask): 指定物体移动或静止区域,精确控制镜头视角和物体范围。
- 引导像素(guiding pixels): 精确控制特定像素区域在指定帧的位置,实现精准的像素级控制。
- 关键帧(keyframes): 提供关键帧,模型生成中间帧实现场景平滑切换。
- 文本: 支持文本交互。
这些多模态控制能力使得MotionBridge能够生成各种类型的视频,包括动画、卡通视频等,并能对现有视频进行编辑和改进。
3. 技术要点
MotionBridge的几个关键技术点包括:
- 分类编码控制信号: 将控制信号分为内容控制和控制两类,分别处理,减少歧义。
- 轨迹表征: 从光流合成轨迹,并将其转换为稀疏RGB点,提高控制精度。
- 空间内容控制表征: 引入掩码和引导像素等空间内容控制,提升创作灵活度。
- 课程学习(curriculum learning)策略: 先训练简单的控制,再逐步过渡到复杂的控制,提高模型学习效率。
4. 实验结果
实验结果表明,MotionBridge在生成质量和可控性方面均优于现有SOTA算法。消融实验验证了分类编码融合和课程学习策略的有效性,以及掩码在提高模型理解和用户交互效率方面的作用。
5. 结论
MotionBridge是一个具有突破性的统一多模态可控视频生成模型,它为视频创作和编辑提供了强大的工具,并为未来的视频生成研究提供了新的方向。 其强大的控制能力和生成质量,使其在动画制作、视频合成等领域具有广阔的应用前景。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
暂无评论...