5月26日,初创公司Datacurve发布全新基准测试工具DeepSWE,对当前主流AI编程模型进行了迄今为止最严格的评测。结果显示,OpenAI的GPT-5.5以70%的通过率位列第一,大幅领先第二名Claude Opus达16个百分点。
DeepSWE评测涵盖113个任务、91个开源代码库及5种编程语言,相比现有主流基准SWE-Bench Pro(平均仅需120行代码修改),DeepSWE的参考解决方案平均需要668行代码,复杂度约为前者的5.5倍,更贴近真实开发场景。
更值得关注的是,Datacurve的审计发现,SWE-Bench Pro的自动评分系统在随机抽样的30个任务中,约32%的判定结果存在错误——这意味着行业当前严重依赖的编程能力衡量标准可能存在系统性偏差。Datacurve联合创始人Serena Ge表示:「公开排行榜上,各模型看似能力接近,但DeepSWE揭示了它们在实际日常开发中的真实差距。」
随着AI编程工具在企业级开发中的普及,本次评测结果将为工程团队在模型选型时提供更可信的参考依据。
来源:VentureBeat,2026年5月26日
