发布即开源,又一大厂入局 AI 视频生成


130 亿参数,是当前最大视频开源模型

发布即开源,又一大厂入局 AI 视频生成

原标题:发布即开源,又一大厂入局 AI 视频生成
文章来源:特工宇宙
内容字数:2989字

腾讯科技发布AI视频生成大模型:混元的崛起

在过去的一年中,AI视频技术快速发展,吸引了众多关注。昨日,腾讯科技发布了一篇名为《AI 视频的后 Sora 时代》的文章,深入探讨了这一领域的进步与变化。文章不仅回顾了Sora的影响力,也展示了国内团队AI视频生成方面的卓越贡献,令人欣慰。

混元的惊喜发布

就在大家对AI视频技术充满期待之时,腾讯混元发布了其全新的视频生成大模型,并决定开源。我们有幸获得了内测资格,尽管生成视频的长度仅为五秒,但其质量和信息量却让我们大为惊叹。这一模型的表现不仅超乎我们的预期,更为我们展示了AI视频生成的无限可能。

出色的生成效果

混元模型生成的视频不仅具备高清质感和真实感,还展现出流畅自然的动作和强大的指令遵循能力。这与之前使用的模型形成了鲜明对比,混元更像是“别人家的孩子”,无论在指令理解还是画面表现上都表现得相当优秀。此外,支持原生多角度视角切换的功能让我们感受到其灵动性,测试过程中同事甚至误以为我在观看电视剧。

技术创新的背后

混元模型之所以能够取得如此出色的效果,主要归功于以下三个创新:

  1. 新一代语言模型的适配:混元模型采用了最新的多模态大语言模型(MLLM)作为文本编码器,使其在处理复杂场景描述时展现出强大的语义理解能力。
  2. 自研3D视觉编码器:该技术支持混合图片和视频训练,优化了编码器训练算法,显著提升了视频在细节呈现方面的表现,尤其是在快速动作和面部细节方面。
  3. 全注意力机制的应用:这一机制确保了视频每一帧的无缝衔接,使得视频流畅性和主体一致性得到了有效保障。

开放与合作的未来

腾讯混元已将这款视频生成大模型进行了开源,包含模型权重、推理代码等完整资源,供企业和个人进行开发和应用。总参数量高达130亿,使其成为当前最大的视频开源模型。在与国内外顶尖模型的对比中,混元在多个维度的表现均领先,尤其在人物和人造场景方面更是表现突出。

这一切令人期待,如果你也想体验这一技术的魅力,可以通过腾讯元宝APP提交申请试用。此外,企业客户还可以通过腾讯云进行服务接入,API也已开放内测申请。

结语

混元视频生成大模型的发布不仅是AI视频技术的一次重要进步,更是国内团队在国际舞台上的一次亮相。未来,随着技术的不断发展与开源生态的完善,我们有理由相信AI视频生成将迎来更广阔的应用前景。


联系作者

文章来源:特工宇宙
作者微信:
作者简介:Agent Universe,专注于智能体的AI科技媒体。

版权声明:atcat 发表于 2024-12-06 15:02:44。
转载请注明:发布即开源,又一大厂入局 AI 视频生成 | 86AIGC导航

暂无评论

暂无评论...