评测全面升级,多维度探索模型能力边界与应用潜能。
智源研究院发布2024年大模型评测结果
2024年12月19日,智源研究院发布了针对国内外100余个开源与商业闭源大模型的综合评测结果。此次评测相较于今年5月的评估,扩展了任务解决能力的内涵,新增了数据处理、高级编程和工具调用等能力评估,并首次涉及真实金融量化交易场景的应用能力。
1. 评测的主要内容
智源评测强调了语言、视觉语言、文生图、文生视频和语音语言模型的能力提升,特别是在多模态模型方面,新的厂商和模型涌现。评测发现,尽管中文开放式问答和生成任务的能力趋于稳定,复杂场景任务中,国内模型仍显著落后于国际顶尖水平。
2. 语言模型的排名
在主观评测中,字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分别位居第一和第二。客观评测方面,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest排名前两位。整体来看,语言模型的能力有显著提升,但在复杂场景中仍需改进。
3. 多模态模型的表现
视觉语言多模态模型虽在图文理解任务上表现好,但仍面临长尾视觉知识和复杂图文数据分析能力不足的问题。文生图模型在生成中文文字方面有所进步,但在处理复杂场景时仍存在变形等问题。文生视频模型在画质和动态性上有所提升,但也面临物体消失和穿模等问题。
4. 语音模型的进展
语音语言模型的能力得益于文本大模型的进步,虽然整体性能有所提升,但在具体任务上仍与专家模型存在差距。阿里巴巴的Qwen2-Audio在专项评测中排名第一。
5. K12学科测验与用户偏好
智源研究院联合海淀区教师进修学校进行了K12学科测验,模型的综合得分较半年前提升了12.86%。此外,FlagEval平台的推出使得用户能够对不同模型进行评测,结果显示用户对模型响应时间及输出内容的标准化有更高的要求。
6. 未来展望
智源研究院表示,未来将继续探索动态评测与多任务能力评估体系,以进一步感知大模型的发展趋势。此次评测为大模型技术生态的发展提供了重要的洞察,助力行业的进步。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台