数智化转型网szhzxw.cn 人工智能资讯 每日人工智能资讯|GPT-5.5登顶编码基准测试:DeepSWE揭示AI编程真实差距

每日人工智能资讯|GPT-5.5登顶编码基准测试:DeepSWE揭示AI编程真实差距

5月26日,初创公司Datacurve发布全新基准测试工具DeepSWE,对当前主流AI编程模型进行了迄今为止最严格的评测。结果显示,OpenAI的GPT-5.5以70%的通过率位列第一,大幅领先第二名Claude Opus达16个百分点。

DeepSWE评测涵盖113个任务、91个开源代码库及5种编程语言,相比现有主流基准SWE-Bench Pro(平均仅需120行代码修改),DeepSWE的参考解决方案平均需要668行代码,复杂度约为前者的5.5倍,更贴近真实开发场景。

更值得关注的是,Datacurve的审计发现,SWE-Bench Pro的自动评分系统在随机抽样的30个任务中,约32%的判定结果存在错误——这意味着行业当前严重依赖的编程能力衡量标准可能存在系统性偏差。Datacurve联合创始人Serena Ge表示:「公开排行榜上,各模型看似能力接近,但DeepSWE揭示了它们在实际日常开发中的真实差距。」

随着AI编程工具在企业级开发中的普及,本次评测结果将为工程团队在模型选型时提供更可信的参考依据。

来源:VentureBeat,2026年5月26日

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/120161.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部