突破编程边界:豆包大模型团队发布全新开源代码基准,涵盖11类真实场景!


字节开源最全面代码大模型基准FullStack Bench,可在线体验。

突破编程边界:豆包大模型团队发布全新开源代码基准,涵盖11类真实场景!

原标题:首次覆盖超 11 类真实编程场景豆包大模型团队开源代码模型全新基准
文章来源:AI科技评论
内容字数:8306字

字节开源全栈编程基准FullStack Bench

字节跳动豆包大模型团队近日推出了FullStack Bench,这是一个专注于全栈和多语言编程的代码评估数据集,旨在更有效地评估大型语言模型(LLMs)在实际代码开发场景中的能力。该数据集涵盖了11类真实场景,支持16种编程语言,包含3374个问题,标志着代码智能评估的一个重要进步。

评估基准的必要性

现有的代码评估基准如HumanEval和MBPP等,通常只关注基础和高级编程问题,无法全面反映真实世界的复杂编程需求。FullStack Bench则通过分析全球最大的程序员问答社区Stack Overflow的数据,提取出常见的真实编程应用领域,确保评估的全面性和多样性。

FullStack Bench的构建

FullStack Bench的构建过程经过了严格的人工标注和质量验证,确保每个问题的质量和准确性。数据集中不仅包括题目描述和参考解决方案,还配备了15168个单元测试用例,以提高评估的准确性。

SandboxFusion:高效的代码沙盒工具

为支持FullStack Bench的评测需求,字节团队还开源了SandboxFusion,这是一款高效的代码沙盒执行工具,支持23种编程语言。SandboxFusion具备数据集模块和沙箱执行模块,能够安全高效地执行不同语言的代码。

评测结果与模型表现

基于FullStack Bench,研究团队对20余款代码大型模型进行了评测。结果显示,闭源模型在多数编程任务上表现优于开源模型,尤其是在数学和高级编程任务中,反映出模型设计和训练数据质量对表现的显著影响。此外,SandboxFusion的使用能够显著提升模型的表现。

结论与展望

FullStack Bench及其配套的SandboxFusion工具为评估AI在现实编程场景中的能力提供了快速参考,推动了代码智能领域的发展。字节团队期待通过这一平台,促进更多开发者和研究人员的参与与合作。


联系作者

文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。

暂无评论

暂无评论...