3月19日,Cursor 正式宣布推出其自开发的编码模型 Composer 2。公告一出,开发者社区便哗然不已——Cursor的数据显示,该模型在Terminal-Bench 2.0上的成功率达到了61.7%,远高于Claude Opus 4.6在同一测试环境下的58.0%。
Anthropic的旗舰型号是否被其自家IDE内置模型超越?消息传开后,讨论自然而然地展开。
三项核心基准评分
Cursor 发布了三组基准测试数据,均为官方发布:
- 终端-Bench 2.0(代理风格终端编码任务):Composer 2 达到 61.7%,超过 Claude Opus 4.6 的 58.0%。然而,OpenAI GPT-5.4仍以75.1%领先。
- CursorBench(光标内真实编码场景):Composer 2 达到了 61.3%,较前一版本 Composer 1.5 的 44.2% 有了显著提升,也优于 Claude Opus 4.6 的 58.2%。
- SWE-bench 多语言(多语言软件工程):Composer 2 实现了 73.7%,较前一版本有显著提升。
不过,有一点值得注意:Anthropic此前报道,Claude Opus 4.6在优化设置下Terminal-Bench 2.0的评分为65.4%,远高于Cursor的58.0%。区别在于测试框架——Cursor 使用第三方代理环境如 Harbor,并在五次运行中平均结果,而 Anthropic 的数据基于自身优化配置。这两组数据不属于同一个参考系统,所以直接比较它们有点像苹果和橘子的比较。光标并没有避免这个问题;公告明确指出“结果取决于药剂、安全带和设置。”
成本仅为作品4.6的十分之一
性价比其实是《作曲家2》真正的秘密武器。
定价为0.50美元 / 2.50美元(每百万个输入/输出代币),与Claude Opus 4.6的5美元/25美元和GPT-5.4的2.5美元/15美元相比,差异显而易见。Cursor 解释说,Composer 2 从一开始就是为长期编码任务设计的,结合了其自开发的强化学习训练和“自我总结”技术,以降低速度和成本——他们称之为“前沿智能+极限速度”。
Composer 2 是 Cursor 自开发的第三代模型,继 Composer 1 于 2025 年 10 月发布和 1.5 版本于 2026 年 2 月发布之后。此次升级专注于“长期任务”(长期任务),并将更快、更轻量的变体设定为Cursor IDE的默认模型。
“浴火重生”是什么意思?
Cursor愿意直接将自家模型与Opus 4.6进行比较,反映了AI编码工具市场整体逻辑的转变。
OpenAI和Anthropic在综合前沿能力上竞争,而像Cursor这样的垂直工具厂商则走了不同的道路:在特定任务上优化性能至卓越,然后利用价格优势实现差异化。VentureBeat和The New Stack等媒体指出,Composer 2将加速“多模型路由”的实际应用——即使用Opus或GPT进行复杂推理,日常高频编码则切换回Composer 2,实现双方均有优势。
Claude Opus 4.6 于今年 2 月 5 日发布,在多个排名中领先,包括 Terminal-Bench 2.0、Humanity’s Last Exam 和 GDPval-AA。Cursor的最新数据至少在细分编码领域对这一结论提出了质疑。
开发者的反馈迄今大多积极,但许多人表示会先观察实际项目表现后再做判断——这是合理的,因为基准只是基准。Cursor 已经在 IDE 内为订阅用户开放了 Composer 2 的免费试用。
数据来源:截至2026年3月20日,Cursor及主流科技媒体的官方公告。实时排名可在 tbench.ai 或Cursor官方网站查询。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

本文由数智化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数智化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
