每日人工智能资讯|Cursor Composer 2 在编码能力上是否优于 Claude Opus 4.6？基准测试引发人工智能编码界的新争议-数智化转型网szhzxw.cn

3月19日，Cursor 正式宣布推出其自开发的编码模型 Composer 2。公告一出，开发者社区便哗然不已——Cursor的数据显示，该模型在Terminal-Bench 2.0上的成功率达到了61.7%，远高于Claude Opus 4.6在同一测试环境下的58.0%。

Anthropic的旗舰型号是否被其自家IDE内置模型超越？消息传开后，讨论自然而然地展开。

三项核心基准评分

Cursor 发布了三组基准测试数据，均为官方发布：

终端-Bench 2.0（代理风格终端编码任务）：Composer 2 达到 61.7%，超过 Claude Opus 4.6 的 58.0%。然而，OpenAI GPT-5.4仍以75.1%领先。
CursorBench（光标内真实编码场景）：Composer 2 达到了 61.3%，较前一版本 Composer 1.5 的 44.2% 有了显著提升，也优于 Claude Opus 4.6 的 58.2%。
SWE-bench 多语言（多语言软件工程）：Composer 2 实现了 73.7%，较前一版本有显著提升。

不过，有一点值得注意：Anthropic此前报道，Claude Opus 4.6在优化设置下Terminal-Bench 2.0的评分为65.4%，远高于Cursor的58.0%。区别在于测试框架——Cursor 使用第三方代理环境如 Harbor，并在五次运行中平均结果，而 Anthropic 的数据基于自身优化配置。这两组数据不属于同一个参考系统，所以直接比较它们有点像苹果和橘子的比较。光标并没有避免这个问题;公告明确指出“结果取决于药剂、安全带和设置。”

成本仅为作品4.6的十分之一

性价比其实是《作曲家2》真正的秘密武器。

定价为0.50美元 / 2.50美元（每百万个输入/输出代币），与Claude Opus 4.6的5美元/25美元和GPT-5.4的2.5美元/15美元相比，差异显而易见。Cursor 解释说，Composer 2 从一开始就是为长期编码任务设计的，结合了其自开发的强化学习训练和“自我总结”技术，以降低速度和成本——他们称之为“前沿智能+极限速度”。

Composer 2 是 Cursor 自开发的第三代模型，继 Composer 1 于 2025 年 10 月发布和 1.5 版本于 2026 年 2 月发布之后。此次升级专注于“长期任务”（长期任务），并将更快、更轻量的变体设定为Cursor IDE的默认模型。

“浴火重生”是什么意思？

Cursor愿意直接将自家模型与Opus 4.6进行比较，反映了AI编码工具市场整体逻辑的转变。

OpenAI和Anthropic在综合前沿能力上竞争，而像Cursor这样的垂直工具厂商则走了不同的道路：在特定任务上优化性能至卓越，然后利用价格优势实现差异化。VentureBeat和The New Stack等媒体指出，Composer 2将加速“多模型路由”的实际应用——即使用Opus或GPT进行复杂推理，日常高频编码则切换回Composer 2，实现双方均有优势。

Claude Opus 4.6 于今年 2 月 5 日发布，在多个排名中领先，包括 Terminal-Bench 2.0、Humanity’s Last Exam 和 GDPval-AA。Cursor的最新数据至少在细分编码领域对这一结论提出了质疑。

开发者的反馈迄今大多积极，但许多人表示会先观察实际项目表现后再做判断——这是合理的，因为基准只是基准。Cursor 已经在 IDE 内为订阅用户开放了 Composer 2 的免费试用。

数据来源：截至2026年3月20日，Cursor及主流科技媒体的官方公告。实时排名可在 tbench.ai 或Cursor官方网站查询。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）