实时音频处理 | 86AIGC导航

3D-Speaker是一款由阿里巴巴通义实验室语音团队开发的多模态开源项目，通过融合声学、语义和视觉信息，旨在实现精准的说话人识别和语言识别。该项目不仅提供工业级模型和训练推理代……

3个月前

3D-Speaker是一款由阿里巴巴通义实验室语音团队开发的多模态开源项目，通过融合声学、语义和视觉信息，旨在实现精准的说话人识别和语言识别。该项目不仅提供工业级模型和训练推理代……

3个月前

Ultravox是一款创新的多模态大型语言模型（LLM），能够直接理解文本和人类语音，而无需依赖独立的自动语音识别（ASR）阶段。通过多模态投影器技术，Ultravox将音频数据转化为高维空……

4个月前

Ultravox是一款创新的多模态大型语言模型（LLM），能够直接理解文本和人类语音，而无需依赖独立的自动语音识别（ASR）阶段。通过多模态投影器技术，Ultravox将音频数据转化为高维空……

4个月前

MultiFoley是一款由AdobeResearch和密歇根大学联合开发的音效生成系统，能够通过多模态的文本、音频和视频输入，生成高质量的Foley声音效果。该系统允许用户根据文本提示、参考音频……

4个月前

AICAT ─ 全球3000+优质AI工具盘点，热门AI教程推荐