通过超大数据、130亿参数和自研3D架构提升视频生成能力。
腾讯混元大模型视频生成能力正式上线
2023年12月3日,腾讯混元大模型发布了其最新的视频生成能力。这一技术进步是在文生文、文生图和3D生成之后的又一重要里程碑。腾讯混元多模态生成技术负责人凯撒介绍了HunYuan-Video模型的四项核心改进,旨在提升视频生成的质量和可控性。
1. 模型核心技术升级
HunYuan-Video模型的四项关键技术升级包括:首先,采用超大规模的数据处理系统,提升视频画质;其次,引入多模态大语言模型(MLLM),优化文本与图像的对齐;第三,使用130亿参数的全注意力机制(DIT),增强时空建模与动态表现;最后,采用自研的3D VAE架构,提升图像和视频的重建能力。这些升级确保了视频生成的质量和流畅度。
2. 微调与应用拓展
在预训练后,HunYuan-Video进行六个关键领域的微调,进一步提升定向能力。这些包括画质优化、高动态效果、艺术镜头等。此外,模型还推出了Recaption模型,提供常规模式和导演模式,分别适用于专业用户和非专业用户。
3. 性能评估与市场竞争
经过千题盲测,混元大模型在总体表现上领先于其他模型,尤其在处理人文场景和多主体组合场景时表现突出。尽管如此,行业内视频生成技术整体成功率仍然较低,亟待优化。
4. 视频配音与数字人技术
除了基础的视频生成能力,腾讯还推出了视频配音与配乐功能,增强视频的完整性。此外,数字人技术的应用使得用户可以通过语音和姿态控制照片数字人的动态表现,提升生成内容的自然度和一致性。
5. 开源发布与未来展望
腾讯已将HunYuan-Video模型开源,供企业与个人开发者使用。这一举措标志着腾讯混元系列模型的全面开源,进一步促进了生态的发展。未来,腾讯计划逐步提升视频分辨率,目标是实现4K乃至8K的清晰度和细节表现。
6. 结语
随着腾讯混元大模型视频生成能力的发布,AI视频生成领域的竞争愈发激烈。腾讯的开源战略将可能吸引更多开发者参与,推动技术的进步和应用的拓展。
联系作者
文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。