新版通义万相来了
阿里通义万相2.1:AI视频生成新突破,汉字也能轻松驾驭
阿里巴巴通义万相最新升级的2.1版本(包含极速版和专业版)在AI视频生成领域取得了显著突破,尤其是在处理汉字方面展现出全球领先的能力。文章详细介绍了该模型的各项新功能和技术创新,并通过多个案例展示其强大的视频生成能力。
1. 汉字生成能力的突破
通义万相2.1能够流畅地生成包含汉字的视频,无论是简单的单个汉字,还是复杂的句子,甚至包含大量文字的场景,都能精准还原。文章以“福”字、 “量子位”等例子,展示了模型在不同风格(古风、赛博朋克、水彩插画等)下的出色表现,并指出即使是复杂的语句如“摸鱼一天 快乐无边”,模型也能较好地完成,虽然存在细微瑕疵。
2. 复杂动作和物理规律的精准还原
以往AI视频生成在处理复杂人物动作时常出现失真现象,而通义万相2.1则显著改善了这种情况。文章通过霹雳舞和跳水等案例,展示了模型在处理高难度、连续性动作时的稳定性和精准度,甚至连跳水员脚背等细节都能清晰展现。此外,模型对物理规律的还原也相当出色,例如切肉场景中肉块分离、刀面镜像、底部油脂等细节都得到了体现,以及对《滕王阁序》中意境的精准把握。
3. 运镜和风格控制能力
通义万相2.1不仅能够生成高质量的画面,还具备优秀的运镜能力,可以根据用户的需求,灵活运用各种运镜技巧,营造出不同的氛围和视觉效果。文章中“狐大仙蹦迪”和“山谷跑车”的例子,充分展现了模型在运镜方面的能力。同时,该模型还支持多种风格的视频生成,例如中世纪真人写实风格和卡通动画风格,并可选择不同的视频尺寸。
4. 技术创新:三步走策略
通义万相2.1的成功并非偶然,其背后是阿里团队在技术上的三大创新:首先是VAE与DiT架构的协同,VAE负责高效压缩视频信息,DiT负责捕捉时空动态;其次是超长序列训练的突破,通过4D并行策略提升训练效率和稳定性;最后是数据与评估双轮驱动,构建高质量数据集并建立完善的评估体系。
5. 总结
通义万相2.1在AI视频生成领域取得了令人瞩目的成就,其汉字生成能力更是全球领先。通过技术创新和持续优化,该模型在视频质量、动作捕捉、物理规律还原、运镜技巧等方面都达到了新的高度,标志着国产AI视频生成技术达到了国际先进水平。目前该模型已上线,用户可以免费在线体验。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破