快手推出“可灵”视频生成大模型,引领AI创作新潮流
6月6日,国内短视频平台快手正式发布了一款名为“可灵(Kling)”的视频生成大模型。这一由快手AI团队自主研发的创新技术,标志着中国在人工智能视频创作领域迈出了重要的一步。可灵大模型具备多重优势,能够生成大幅度的合理运动,模拟真实物理世界的特性,并拥有强大的概念组合能力和创意想象力。
突破性的视频生成能力
可灵大模型通过简单的文本输入,便能生成时长长达2分钟、1080P高清、每秒30帧的流畅视频。在色彩呈现、视频清晰度、动作连贯性及对文本语义的准确理解方面,可灵表现出色,足以与OpenAI的Sora相媲美。同时,它还具备模拟真实物理世界的技术特性,为用户带来了更为真实的观看体验。
先进的技术架构
在技术上,可灵采用了3D时空联合注意力机制,更有效地建模视频中的复杂时空运动。这一创新意味着可灵不仅能生成大幅度的运动,而且这些运动将遵循客观的运动规律。例如,在官方展示的视频中,一位宇航员在月球上奔跑,随着镜头的提升,宇航员的步态和影子都保持了合理的表现。此外,可灵还能够模拟光影反射、流体运动等真实物理特性,使得生成的视频更加生动。比如,在一段关于“小男孩吃汉堡”的视频中,男孩咬下汉堡时,汉堡上出现了明显的缺口,并且在整个视频中保持如一。
表情与身体驱动的创新玩法
可灵大模型还引入了表情身体驱动技术,结合自研的3D人脸和人体重建技术,用户只需上传一张全身照片,便能体验生动的“唱跳”玩法。这种技术的运用,为视频创作带来了全新的可能性。
可灵的五大优势
1. 流畅合理的运动模拟:通过创新的3D时空联合注意力机制,精准捕捉视频中的复杂动态,生成自然且符合物理法则的运动。
2. 高清视频输出:可灵能够生成长达两分钟、每秒30帧的流畅视频,保证高质量的观看体验。
3. 真实物理特性的模拟:能够逼真地模拟光影效果、流体运动等,确保视频内容符合自然界的规律。
4. 概念组合与创意转化能力:结合Diffusion Transformer架构,将用户的想象转化为生动的视觉画面,甚至创造超现实的场景。
5. 灵活的视频宽高比支持:通过可变分辨率训练策略,适应不同宽高比需求,满足多样化的创作需求。
未来展望
通过这些显著优势,可灵不仅为视频创作带来了前所未有的便捷和高效,也为AI视频生成领域开辟了新的天地。目前,可灵大模型已在快手旗下的快影App开放邀测体验,支持创作者申请并体验其最新的文生视频功能。快手表示,将持续加速大模型的研发与应用,力求带来更丰富的AI创作与互动体验。
可灵视频生成大模型的发布,不仅为快手带来了新的竞争优势,也为整个AI创作领域注入了新的活力。我们期待这一创新技术在未来的广泛应用,为用户带来更多精彩纷呈的视频内容。
联系作者
文章来源:小夏聊AIGC
作者微信:
作者简介:专注于人工智能生成内容的前沿信息与技术分享。我们提供AI生成艺术、文本、音乐、视频等领域的最新动态与应用案例。每日新闻速递、技术解读、行业分析、专家观点和创意展示。期待与您一起探索AI的无限潜力。欢迎关注并分享您的AI作品或宝贵意见。