ITCOW牛新网 8月15日消息,人工智能企业OpenAI于8月13日宣布一项技术更新,推出了SWE-bench Verified基准测试工具。这一新工具针对先前基准测试中的不足进行了改进,旨在更精确地衡量AI模型在软件工程领域的代码生成能力。

SWE-bench Verified的开发基于对原SWE-bench测试的深入分析和反馈。原测试虽然在GitHub上收集了大量真实软件问题,但在评估过程中存在一些局限性,如单元测试标准过于严苛、问题描述不够明确以及开发环境配置难度大等问题。
据ITCOW牛新网了解,SWE-bench Verified通过引入Docker容器化技术,显著提升了评估过程的一致性和可靠性。
在性能方面,SWE-bench Verified展现了其对AI模型能力更真实的捕捉。例如,GPT-4o在新基准下解决了33.2%的测试样本,而之前表现最佳的开源代理Agentless的解决率则翻倍,达到了16%。