OpenAI发布SWE-bench Verified，优化AI代码生成能力评估

8 月 15, 2024 #OpenAI

ITCOW牛新网 8月15日消息，人工智能企业OpenAI于8月13日宣布一项技术更新，推出了SWE-bench Verified基准测试工具。这一新工具针对先前基准测试中的不足进行了改进，旨在更精确地衡量AI模型在软件工程领域的代码生成能力。

Photo by Andrew Neel on Pexels.com

SWE-bench Verified的开发基于对原SWE-bench测试的深入分析和反馈。原测试虽然在GitHub上收集了大量真实软件问题，但在评估过程中存在一些局限性，如单元测试标准过于严苛、问题描述不够明确以及开发环境配置难度大等问题。

据ITCOW牛新网了解，SWE-bench Verified通过引入Docker容器化技术，显著提升了评估过程的一致性和可靠性。

在性能方面，SWE-bench Verified展现了其对AI模型能力更真实的捕捉。例如，GPT-4o在新基准下解决了33.2%的测试样本，而之前表现最佳的开源代理Agentless的解决率则翻倍，达到了16%。

相关文章

OpenAI推出限时福利：美加大学生5月前免费畅享ChatGPT Plus高级功能

微软Copilot结束Beta测试：原生架构提速3倍新增截图问答等实用功能

天津中小学今年秋季新增《人工智能基础》课程，每周1课时

更多资讯

OpenAI推出限时福利：美加大学生5月前免费畅享ChatGPT Plus高级功能

2025年 4月 4日

微软Edge浏览器推进隐私保护：逐步淘汰非标准数据采集方法全面转向Client Hints API

2025年 4月 4日

荣耀畅玩60手机发布：6000mAh长续航+120Hz屏 1199元起售

2025年 4月 4日

比亚迪夏MPV限时补贴4.2万起售价降至20.78万

2025年 4月 4日