端侧 GPT-4o来了! 面壁发布全新端侧模型,全模态、端到端,支持实时流式音视频通话!


近日,面壁智能发布并开源了全新一代小钢炮 MiniCPM-o 2.6

端侧 GPT-4o来了! 面壁发布全新端侧模型,全模态、端到端,支持实时流式音视频通话!

原标题:端侧 GPT-4o来了! 面壁发布全新端侧模型全模态、端到端,支持实时流式音视频通话!
文章来源:AI前线
内容字数:5600字

面壁智能开源MiniCPM-o 2.6:全模态实时流式AI模型

本文总结了面壁智能最新开源的MiniCPM-o 2.6模型的关键特性及应用前景。

  1. MiniCPM-o 2.6 的核心能力

    MiniCPM-o 2.6是一个参数规模仅8B的端到端全模态模型,在视觉语音多模态方面性能堪比GPT-4o-202405。它支持双语实时语音对话,并具备声音可配置、情绪/语速/风格控制、端到端语音克隆和角色扮演等功能。此外,该模型还提升了视觉能力,包括强大的OCR能力、多语言支持和视频理解能力。其优越的token密度使其能够在iPad等端侧设备上进行多模态实时流处理,实现了实时流式全模态开源模型的SOTA

  2. 超越现有模型的性能

    MiniCPM-o 2.6在多个基准测试中表现出色。在语音方面,其理解和生成能力均达到开源双SOTA,超越了Qwen2-Audio-7B-Instruct和GLM-4-Voice 9B。在视觉方面,它也达到了端侧全模态模型最佳水平,性能与GPT-4oClaude-3.5-Sonnet相当。尤其是在StreamingBench榜单(实时流式视频理解)上,其性能同样惊艳,与GPT-4o和Claude-3.5-Sonnet不相上下。

  3. 实时流式与端到端优势

    不同于市场上仅处理静态图像的“照片大模型”,MiniCPM-o 2.6能够持续对实时视频和音频流进行建模,更贴近人类的自然视觉交互。它可以感知用户提问之前的画面和声音,并实现实时打断和流畅对话,具备更强的上下文理解能力和抗噪能力。 它还能识别环境声音,例如翻书、倒水、敲门声等细节,这是GPT-4o所不具备的。

  4. 高级情感语音对话

    MiniCPM-o 2.6 的高级情感语音对话功能,具备真人质感的语音生成能力、低延迟、实时打断、情感与语气表达、可控语音生成(情感、音色、风格控制)以及语音克隆和基于语言描述的声音创建等特性,带来更自然流畅的交互体验。

  5. 端侧大模型的潜力

    面壁智能押注端侧大模型,看重其隐私性好、可靠性高、响应速度快以及对网络环境要求低的优势。MiniCPM-o 2.6的多模态特性使其在智能座舱、教育和商务等领域具有巨大的应用潜力,例如实现沉浸式学习、实时翻译等功能。

  6. 大模型密度定律

    面壁团队提出“大模型密度定律”,认为模型能力密度随时间呈指数级增长,模型参数规模和推理/训练开销将持续下降。这预示着未来更强大的模型能够运行在各种终端设备上。

总而言之,MiniCPM-o 2.6 作为一款全模态实时流式AI模型,凭借其强大的性能和端侧部署能力,展现了在多个领域的巨大应用潜力,为AI技术的发展带来了新的突破。


联系作者

文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

暂无评论

暂无评论...