突破编程边界：豆包大模型团队发布全新开源代码基准，涵盖11类真实场景！

字节 开源最全面 代码 大模型 基准FullStack Bench，可在线体验。

原标题：首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准
 文章来源：AI 科技评论
内容字数：8306字

字节跳动豆包大模型团队近日推出了FullStack Bench，这是一个专注于全栈和多语言编程的代码评估数据集，旨在更有效地评估大型语言模型（LLMs）在实际代码开发场景中的能力。该数据集涵盖了11类真实场景，支持16种编程语言，包含3374个问题，标志着代码智能评估的一个重要进步。

现有的代码评估基准如HumanEval和MBPP等，通常只关注基础和高级编程问题，无法全面反映真实世界的复杂编程需求。FullStack Bench则通过分析全球最大的程序员问答社区Stack Overflow的数据，提取出常见的真实编程应用领域，确保评估的全面性和多样性。

FullStack Bench的构建过程经过了严格的人工标注和质量验证，确保每个问题的质量和准确性。数据集中不仅包括题目描述和参考解决方案，还配备了15168个单元测试用例，以提高评估的准确性。

为支持FullStack Bench的评测需求，字节团队还开源了SandboxFusion，这是一款高效的代码沙盒执行工具，支持23种编程语言。SandboxFusion具备数据集模块和沙箱执行模块，能够安全高效地执行不同语言的代码。

基于FullStack Bench，研究团队对20余款代码大型模型进行了评测。结果显示，闭源模型在多数编程任务上表现优于开源模型，尤其是在数学和高级编程任务中，反映出模型设计和训练数据质量对表现的显著影响。此外，SandboxFusion的使用能够显著提升模型的表现。

FullStack Bench及其配套的SandboxFusion工具为评估AI在现实编程场景中的能力提供了快速参考，推动了代码智能领域的发展。字节团队期待通过这一平台，促进更多开发者和研究人员的参与与合作。

文章来源：AI科技评论
作者微信：
作者简介：雷峰网旗下AI新媒体。聚焦AI前沿研究，关注AI工程落地。

暂无评论...