OmniAudio-2.6B – Nexa AI推出的端侧多模态音频语言模型
OmniAudio-2.6B是Nexa AI推出的一款创新音频语言模型,专为边缘部署而设计,旨在实现快速且高效的音频文本处理。该模型拥有2.6亿参数,融合了Gemma-2-2b、Whisper Turbo以及定制的投影模块,优化了自动语音识别(ASR)与语言模型的集成,显著降低了延迟和资源消耗。在2024款Mac Mini M4 Pro上,OmniAudio-2.6B的解码速度比Qwen2-Audio-7B-Instruct快5.5到10.3倍,适用范围广泛,包括语音问答、对话及创意内容生成等,基于Nexa SDK在本地设备上运行,为用户提供强大的边缘AI解决方案。
OmniAudio-2.6B是什么
OmniAudio-2.6B是Nexa AI推出的一款音频语言模型,专为边缘设备部署而设计,提供快速且高效的音频文本处理能力。该模型结合了Gemma-2-2b、Whisper Turbo和定制的投影模块,优化了自动语音识别和语言模型的融合,显著减少了延迟和资源消耗。OmniAudio-2.6B在2024款Mac Mini M4 Pro上展示了比Qwen2-Audio-7B-Instruct快5.5到10.3倍的解码速度,适用于众多应用场景,例如语音问答、对话生成和创意内容创造,基于Nexa SDK在本地设备上运行,提供了强大的边缘AI解决方案。
OmniAudio-2.6B的主要功能
- 语音识别与转录:将语音输入转化为文本,适用于会议记录、语音笔记等多种场景。
- 语音问答:用户可以通过语音提问,模型能够理解并提供文本答案。
- 语音对话:模型能够参与语音对话,理解语音输入并生成相应的文本回复。
- 创意内容生成:用户可以请求模型基于语音输入生成创意内容,如诗歌和故事等。
- 录音摘要:模型能够对长时间的语音记录进行理解和总结,提取关键信息的摘要。
OmniAudio-2.6B的技术原理
- 集成架构:整合了Gemma-2-2b、Whisper Turbo和自定义投影模块,减少了传统ASR和LLM模型串联带来的延迟和资源消耗。
- 稀疏性利用:通过语言模型嵌入空间的稀疏性,投影模块将Whisper的音频tokens映射到与Gemma文本嵌入一致的序列,实现音频和文本的有效融合。
- 三阶段训练流程:
- 高效推理引擎:Nexa SDK是基于GGML的C++推理引擎,专为在边缘设备上部署音频语言模型而设计,能够实现高效的音频语言模型推理。
- 量化和优化:模型支持FP16和Q4_K_M量化版本,减少内存和存储需求,适应资源受限的边缘设备。
OmniAudio-2.6B的项目地址
- 项目官网:nexa.ai/blogs/omniaudio-2.6b
- HuggingFace模型库:https://huggingface.co/NexaAIDev/OmniAudio-2.6B
- 在线体验Demo:https://huggingface.co/spaces/NexaAIDev/omni-audio-demo
OmniAudio-2.6B的应用场景
暂无评论...