目前还只是Preview版
原标题:豆包代码大模型曝光!在字节最新开源基准里,多种编程语言性能仅次于OpenAI/Claude
文章来源:量子位
内容字数:5659字
字节推出全新代码大模型评估基准FullStack Bench
近日,字节跳动发布了全新的代码大模型评估基准FullStack Bench,旨在更真实地评估AI编程水平。该评估基准首次综合了全栈编程和多语言编程,涵盖超过11类真实场景和16种编程语言,共包含3374个问题。这一数据集借鉴了全球最大的程序员技术问答社区Stack Overflow的数据,覆盖范围远超以往的评估基准。
1. FullStack Bench的亮点
FullStack Bench的设计目标在于解决现有基准难以反映真实世界编程复杂性的问题。与HumanEval等基准相比,FullStack Bench的题目类型多样,应用领域广泛,能够更全面地评估模型的综合编程能力。每个问题均由编程专家设计,并经过AI和人工验证,确保数据质量。
2. SandboxFusion工具的发布
为了方便开发者评估模型能力,字节团队还开源了SandboxFusion工具。这款工具支持多种编程语言和代码评估数据集,帮助开发者在单服务器上高效测试模型的代码能力。
3. 模型评测结果
基于FullStack Bench的评测显示,闭源模型在整体表现上优于开源模型。OpenAI的o1-preview模型在数学编程领域表现最佳,而一些开源模型如DeepSeek-Coder-v2也在特定领域取得了显著成绩。评测结果表明,不同模型在不同难度和编程语言上的表现差异明显,尤其是在高难度的问题上,闭源模型的表现更为突出。
4. 策略对模型表现的影响
研究人员通过比较“反思策略”和“N次推断策略”发现,利用SandboxFusion的反馈上下文可以显著提升模型的表现。这一发现强调了反馈机制在代码生成中的重要性。
总结
字节跳动的FullStack Bench和SandboxFusion工具的推出,标志着代码大模型评估的一个新阶段。这些创新工具不仅为开发者提供了更全面的评测标准,也推动了AI编程助手的进一步发展。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破