原标题:智谱AI正式开源了他们的Sora「清影」-CogVideoX视频生成模型
文章来源:小夏聊AIGC
内容字数:1925字
智谱清影推出CogVideoX:视频生成技术的新纪元
2024年8月6日,智谱清影团队在视频创作领域掀起了巨大波澜,正式开源了CogVideoX系列视频生成模型。这一创新举措不仅在技术上引发了广泛关注,更是为视频创作注入了新的活力,令人期待未来的发展。
什么是CogVideoX?
CogVideoX是一款先进的视频生成工具,能够将用户的文字描述直接转换为生动的视频内容。特别是CogVideoX-2B模型,展现了惊人的视频生成能力,并且对计算机配置的要求相对较低,使得普通用户也能轻松尝试和使用。
如何获取和使用CogVideoX?
如果你对这一技术感到好奇,欢迎访问其GitHub页面,链接地址为:https://github.com/THUDM/CogVideo。需要注意的是,CogVideoX目前仅支持英语视频生成,因此掌握英语将有助于你更好地运用这一工具。
此外,想要下载智谱清影AI及CogVideoX模型的用户,可以通过以下链接获取:https://huggingface.co/THUDM/CogVideoX-2b。
模型亮点与配置要求
CogVideoX-2B的亮点不容小觑。生成视频时,使用SAT技术需要18GB的GPU内存,而使用diffusers则需36GB,未来这些要求有望得到进一步优化。如果你有意自己进行模型调教,40GB的GPU内存将是必需的。
该模型能够生成6秒长的视频,分辨率为720 * 480,帧率为8帧/秒。目前尚不支持量化推理和多卡推理,但其在视频生成领域的重要性依旧显而易见。
开源的意义
CogVideoX-2B的开源标志着视频生成技术的一次重要飞跃。它使得普通用户也能轻松制作高质量视频,开源的特性则让全球的开发者和研究者能够共同参与技术的进步与共享。
项目结构与未来计划
智谱清影团队还提供了详细的项目结构和使用指南,无论是命令行界面还是Web演示,都为用户提供了清晰的操作指引。此外,他们还公布了一个全面的开源计划,内容包括:
- 模型的推理示例
- 在线体验演示
- API接口示例
- 模型的微调示例
更令人期待的是,团队还计划发布CogVideoX-Pro,这是专为CogVideoX-2B设计的升级版本,将为用户带来更多功能和优化。
引领视频生成技术的未来
智谱清影的开源策略,不仅刷新了视频生成技术的界限,也为技术爱好者提供了新的学习和探索机会。当前,视频生成领域充满活力,预示着国内AI视频技术即将进入全新时代。
智谱清影的举措将其推向视频生成技术的前沿,未来的发展前景令人期待。这不仅是技术上的重大决策,更是对开源精神的积极践行,传递出一个清晰的信息:技术的未来属于所有愿意分享和贡献的企业与个人。期待在不久的将来,我们能够借助CogVideoX,创造出属于自己的视频生成奇迹。
联系作者
文章来源:小夏聊AIGC
作者微信:
作者简介:专注于人工智能生成内容的前沿信息与技术分享。我们提供AI生成艺术、文本、音乐、视频等领域的最新动态与应用案例。每日新闻速递、技术解读、行业分析、专家观点和创意展示。期待与您一起探索AI的无限潜力。欢迎关注并分享您的AI作品或宝贵意见。