语音识别 | 第 4 页

Klap是一个先进的AI驱动视频编辑工具，旨在快速将长视频转换为适合社交媒体平台的短视频内容。它通过智能分析视频场景，自动裁剪和调整视频布局，生成符合不同平台需求的竖屏视频。……

4个月前

产品名称：Genesis核心观点：Genesis是由卡内基梅隆大学、马里兰大学、斯坦福大学和麻省理工学院等知名研究机构联合开发的开源生成式物理引擎，旨在以简单的语言快速生成精确的物理……

4个月前

Agent-S是什么Agent-S是一款前沿的智能代理框架，旨在通过图形用户界面（GUI）实现人机交互的高度自动化。该系统模拟人类的操作方式，通过鼠标和键盘直接与计算机进行互动，能够高……

4个月前

Apollo是Meta与斯坦福大合推出的一款大型多模态模型（LMMs），专注于提升视频理解能力。该项目通过系统研究揭示了视频理解在LMMs中的关键驱动因素，提出了“ScalingConsistency”现象……

4个月前

海螺AIAudio是一款由MiniMax推出的先进AI语音合成工具，能够生成逼真的多语言、多声音和多情感的语音。用户仅需提供约30秒的音频样本，即可克隆特定个体的声音，支持包括中文、粤语……

4个月前

MMAudio是一项创新的音频合成技术，专注于将视频内容转化为音频，通过多模态联合训练，使模型能够在多种视听和文本数据集上进行高效学习。其核心组件是同步模块，确保生成的音频与……

4个月前

FLOAT是一款由DeepBrainAI与韩国先进科技研究院合作开发的音频驱动说话人头像生成模型。该模型运用了流匹配生成技术，通过学习运动潜在空间来实现高效的时间一致性运动设计。FLOAT……

4个月前

MMAudio是一项创新的音频合成技术，专注于将视频内容转化为音频，通过多模态联合训练，使模型能够在多种视听和文本数据集上进行高效学习。其核心组件是同步模块，确保生成的音频与……

4个月前

FLOAT是一款由DeepBrainAI与韩国先进科技研究院合作开发的音频驱动说话人头像生成模型。该模型运用了流匹配生成技术，通过学习运动潜在空间来实现高效的时间一致性运动设计。FLOAT……

4个月前

海螺AIAudio是一款由MiniMax推出的先进AI语音合成工具，能够生成逼真的多语言、多声音和多情感的语音。用户仅需提供约30秒的音频样本，即可克隆特定个体的声音，支持包括中文、粤语……

4个月前

AICAT ─ 全球3000+优质AI工具盘点，热门AI教程推荐