端侧 GPT-4o来了！面壁发布全新端侧模型，全模态、端到端，支持实时流式音视频通话！

AI快讯 3个月前 atcat

0 0 7

近日，面壁智能发布并开源了全新一代 小钢炮 MiniCPM-o 2.6

原标题：端侧 GPT-4o来了！面壁发布全新端侧模型，全模态、端到端，支持实时流式音视频通话！
文章来源：AI前线
内容字数：5600字

面壁智能开源MiniCPM-o 2.6：全模态 实时流式 AI模型

本文总结了面壁智能最新开源的MiniCPM-o 2.6模型的关键特性及应用前景。

MiniCPM-o 2.6 的核心能力
MiniCPM-o 2.6是一个参数规模仅8B的端到端全模态模型，在视觉、语音和多模态方面性能堪比GPT-4o-202405。它支持双语实时语音对话，并具备声音可配置、情绪/语速/风格控制、端到端语音克隆和角色扮演等功能。此外，该模型还提升了视觉能力，包括强大的OCR能力、多语言支持和视频理解能力。其优越的token密度使其能够在iPad等端侧设备上进行多模态实时流处理，实现了实时流式全模态开源模型的SOTA。
超越现有模型的性能
MiniCPM-o 2.6在多个基准测试中表现出色。在语音方面，其理解和生成能力均达到开源双SOTA，超越了Qwen2-Audio-7B-Instruct和GLM-4-Voice 9B。在视觉方面，它也达到了端侧全模态模型最佳水平，性能与GPT-4o和Claude-3.5-Sonnet相当。尤其是在StreamingBench榜单（实时流式视频理解）上，其性能同样惊艳，与GPT-4o和Claude-3.5-Sonnet不相上下。
实时流式与端到端优势
不同于市场上仅处理静态图像的“照片大模型”，MiniCPM-o 2.6能够持续对实时视频和音频流进行建模，更贴近人类的自然视觉交互。它可以感知用户提问之前的画面和声音，并实现实时打断和流畅对话，具备更强的上下文理解能力和抗噪能力。它还能识别环境声音，例如翻书、倒水、敲门声等细节，这是GPT-4o所不具备的。
高级情感语音对话
MiniCPM-o 2.6 的高级情感语音对话功能，具备真人质感的语音生成能力、低延迟、实时打断、情感与语气表达、可控语音生成（情感、音色、风格控制）以及语音克隆和基于语言描述的声音创建等特性，带来更自然流畅的交互体验。
端侧大模型的潜力
面壁智能押注端侧大模型，看重其隐私性好、可靠性高、响应速度快以及对网络环境要求低的优势。MiniCPM-o 2.6的多模态特性使其在智能座舱、教育和商务等领域具有巨大的应用潜力，例如实现沉浸式学习、实时翻译等功能。
大模型密度定律
面壁团队提出“大模型密度定律”，认为模型能力密度随时间呈指数级增长，模型参数规模和推理/训练开销将持续下降。这预示着未来更强大的模型能够运行在各种终端设备上。

总而言之，MiniCPM-o 2.6 作为一款全模态实时流式AI模型，凭借其强大的性能和端侧部署能力，展现了在多个领域的巨大应用潜力，为AI技术的发展带来了新的突破。

联系作者

文章来源：AI前线
作者微信：
作者简介：面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

AIGC动态全模态实时流式音视频端侧AI 端侧GPT 端到端模型

版权声明：atcat 发表于 2025-01-20 18:41:00。
转载请注明：端侧 GPT-4o来了！面壁发布全新端侧模型，全模态、端到端，支持实时流式音视频通话！ | 86AIGC导航

暂无评论

暂无评论...

端侧 GPT-4o来了！面壁发布全新端侧模型，全模态、端到端，支持实时流式音视频通话！

近日，面壁智能发布并开源了全新一代 小钢炮 MiniCPM-o 2.6

面壁智能开源MiniCPM-o 2.6：全模态 实时流式 AI模型

MiniCPM-o 2.6 的核心能力

超越现有模型的性能

实时流式与端到端优势

高级情感语音对话

端侧大模型的潜力

大模型密度定律

联系作者

卖身、豪赌Killer App的AI 厂商：被“吊”麻了，明年咋活？

全球最大AI竞技场竟在国内？五大顶流国产模型化身武侠少女硬核PK

暂无评论

端侧 GPT-4o来了！ 面壁发布全新端侧模型，全模态、端到端，支持实时流式音视频通话！

近日，面壁智能发布并开源了全新一代小钢炮 MiniCPM-o 2.6

面壁智能开源MiniCPM-o 2.6：全模态实时流式AI模型

MiniCPM-o 2.6 的核心能力

超越现有模型的性能

实时流式与端到端优势

高级情感语音对话

端侧大模型的潜力

大模型密度定律

联系作者

卖身、豪赌Killer App的AI 厂商：被“吊”麻了，明年咋活？

全球最大AI竞技场竟在国内？五大顶流国产模型化身武侠少女硬核PK

暂无评论

端侧 GPT-4o来了！面壁发布全新端侧模型，全模态、端到端，支持实时流式音视频通话！

面壁智能开源MiniCPM-o 2.6：全模态实时流式 AI模型