AI视频生成,现在终于有可操作性了。
阿里通义万相2.1视频生成模型重磅升级:开启AI艺术创作新大门
阿里旗下通义万相视频生成模型近日发布2.1版本,带来极速版和专业版两个版本,在处理复杂、还原物理规律、提升电影质感及指令遵循等方面取得显著进展,在权威评测榜单VBench Leaderboard上排名第一。
1. 性能大幅提升,细节拉满
通义万相2.1在视频生成细节方面有了巨大提升。“切牛排”场景中,牛排纹理、油脂光泽、刀锋切入等细节清晰可见;人物特写中,表情、肢体动作自然协调,头发随风飘动也符合物理规律。在VBench Leaderboard上,其总分达到84.7%,超越了Gen3、Pika、CausVid等模型。
2. 突破文字生成难题,特效字体轻松驾驭
通义万相2.1解决了AI视频生成中长期存在的文字生成难题,成为首个支持中英文文字生成及特效生成的模型。它可以生成清晰易懂的文字,并支持多种字体特效,例如在视频中加入电影级文字动画。
3. 复杂更流畅,物理规律更精准
以往AI视频生成中,复杂人物常常出现失真或不自然的情况。通义万相2.1通过算法优化,能够生成流畅自然的复杂,例如霹雳舞、奔跑等场景,并能细致地还原物理细节,例如奔跑时脚印和扬起的细沙。
4. 运镜媲美电影大师,长文本指令精准遵循
通义万相2.1支持各种运镜指令,例如镜头左移、拉远、推进等,可以根据内容需求自动生成合理的视频。此外,它还能准确理解和执行包含多个场景、角色和复杂动作的长文本指令,避免了细节遗漏或逻辑混乱。
5. 支持多种艺术风格,满足多样化创作需求
通义万相2.1支持卡通、电影色、3D、油画、古典等多种艺术风格,并支持1:1、3:4、4:3、16:9和9:16等多种长宽比,满足不同终端设备的需求。
6. 技术升级:高效VAE和DiT架构
通义万相2.1在模型架构上进行了重大升级,采用了高效的VAE和DiT架构,并引入了Flow Matching训练框架,显著提升了模型的收敛性、生成质量和效率。通过创新性的视频编解码方案和时空全注意力机制,实现了对时空关系的更精准建模。
7. 百万超长序列高效训练
为了应对超长视觉序列处理的挑战,团队采用了分布式、显存优化的训练策略,实现了百万超长序列的高效训练,并通过一系列优化措施提升了训练稳定性和效率。
8. 未来展望:视频生成的GPT-3时刻
文章认为,通义万相2.1的进步代表着视频生成领域正朝着更精准、更真实、更强大的方向发展,并预测未来视频生成技术将迎来新的突破,实现类似于文本生成领域GPT-3的飞跃。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台