万相2.1 – 通义万相最新推出的视频生成模型
万相2.1是阿里巴巴推出的通义万相的最新升级版,基于自研的高效变分自编码器(VAE)和扩散模型(DiT)架构,显著提升了时空上下文建模的能力。它不仅支持无限长的1080P视频高效编解码,还首次实现了中文文本生成视频的功能。升级后的万相2.1在VBench榜单上名列前茅,能够稳定展现复杂的人物动作,并逼真再现现实物理规律。同时,它提供一键生成中英文视频特效的功能,具备强大的影视质感与艺术风格转换能力。
万相2.1是什么
万相2.1是阿里巴巴推出的通义万相的升级版本。它基于自研的高效VAE和DiT架构,增强了时空上下文建模的能力,支持无限长的1080P视频高效编解码,并首次实现中文文字生成视频的功能。经过升级的万相2.1在VBench榜单中名列第一,能稳定展示复杂的人物肢体,真实还原物理规律,同时支持一键生成中英文视频特效,拥有强大的影视质感与艺术风格转换能力。此外,万相2.1还支持根据文本生成图像,采用IC-LoRA图像生成训练方法,提升了文本到图像的上下文能力,使得生成的图像与用户的文本描述紧密相关。
万相2.1的主要功能
- 视频生成
- 图像生成
万相2.1的技术原理
- VAE架构:变分自编码器(VAE)作为一种生成模型,通过编码器将输入数据映射到潜在空间,再通过解码器将其映射回数据空间,实现数据生成和重建。
- DiT架构:DiT(Diffusion in Time)架构基于扩散模型,通过在时间维度逐步引入噪声并去除噪声生成数据,能够有效捕捉视频的时空结构,支持高效编解码和高质量视频生成。
- IC-LoRA:IC-LoRA是一种图像生成训练方法,通过结合图像内容与文本描述,增强文本到图像的上下文能力,使生成的图像更符合用户期待。
- 上下文建模:增强时空上下文建模能力,使得视频内容的动作、场景和风格等元素更加自然、协调。
万相2.1的项目地址
- 项目官网:访问通义万相AI视频官方网站,开启创作之旅。
万相2.1的应用场景
暂无评论...