中国数智化转型网 人工智能资讯 每日人工智能资讯|上海交大等团队推出 SWE-Explore 基准测试,揭示 AI 编码智能体行级定位缺陷

每日人工智能资讯|上海交大等团队推出 SWE-Explore 基准测试,揭示 AI 编码智能体行级定位缺陷

一个由上海交通大学参与的国际研究团队今日正式推出全新基准测试工具 SWE-Explore,该工具通过将代码搜索与实际修复阶段进行解耦评估,首次量化揭示了当前 AI 编码智能体在“行级精度”上的重大技术短板。这一研究打破了以往仅依赖“最终修复率”的单一评估模式,为智能体上游搜索质量的直接衡量提供了全新标准,正推动 AI 软件工程评测向深水区演进。数智化转型网www.szhzxw.cn

传统的 SWE-bench 等基准测试因仅关注端到端的结果,往往掩盖了智能体在代码阅读与理解阶段的真实缺陷。为此,研究团队基于 GPT-5.4、Gemini3Pro、Claude Sonnet4.6及 Kimi K2.6等主流大模型的成功运行轨迹,提取出多条独立解路径交汇的共识代码段作为参考值,构建了包含10种编程语言、203个开源项目的848个缺陷任务数据集。数智化转型网www.szhzxw.cn

评测结果显示,尽管 Claude Code、OpenHands 等通用编码智能体在“文件级”定位上表现卓越,但在聚焦到具体的“代码行”时,其核心区域覆盖率骤降至14% 到19% 之间。消融实验进一步证实了“最小上下文阈值”效应的存在:当关键核心区域的可见比例低于50% 时,模型修复基本宣告失败;而一旦跨越50% 至75% 的阈值,修复成功率才会出现断崖式回升。数智化转型网www.szhzxw.cn

这一研究成果表明,当前 AI 智能体的瓶颈并非完全在于补丁编写能力,而在于对关键上下文的精准过滤与捕捉。在当前行业内诸如项目经理拒绝半数自动化采纳方案的现实背景下,SWE-Explore 提出的“少过滤、多阅读”技术导向,不仅为下一代专门化代码定位系统(如 CoSIL 等)的架构优化指明了方向,也将加速自动化软件工程从“暴力生成”向“精准检索”的范式转变。数智化转型网www.szhzxw.cn

若您对人工智能感兴趣,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

思思微信二维码

若您为人工智能服务商,可添加数智化转型网小助手Nora,加入人工智能行业交流群。

Nora微信二维码

若您为人工智能创业者,可添加数智化转型网社群主理人Carina,加入人工智能创业交流群。

Carina微信二维码

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

底部图片
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/123804.html
0
标签:
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部