AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析-数智化转型网szhzxw.cn

根据 ARC 奖最新发布的测试结果，主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中，GPT-5（高级） 的得分为9.9%，每项任务成本为0.73美元。而 Grok4（思考型） 的表现略胜一筹，准确率达到16%，但其成本也更高，每项任务需要2至4美元。这表明在复杂的推理任务上，Grok4性能占优，但成本效益远不如 GPT-5。数字化转型网www.szhzxw.cn

在要求相对较低的 ARC-AGI-1 测试中，Grok4再次以68% 的准确率领先，略高于 GPT-5的65.7%。尽管 Grok4的准确率更高，但其每项任务约1美元的成本远高于 GPT-5的0.51美元，使得 GPT-5 在此测试中更具性价比。不过，xAI 仍有可能通过价格调整来缩小这一差距。

此外，报告还提到了 GPT-5的轻量级版本。GPT-5Mini 在 AGI-1和 AGI-2上的得分分别为54.3% 和4.4%，成本分别为0.12美元和0.20美元。而更小巧的 GPT-5Nano 在 AGI-1上达到16.5%（0.03美元），在 AGI-2上达到2.5%(0.03美元)。数字化转型网www.szhzxw.cn

值得注意的是，在 ARC-AGI-1测试中，于2024年12月发布的 o3-preview 模型以接近80% 的惊人准确率遥遥领先，但其成本远超其他竞争者。尽管 OpenAI 在其 GPT-5演示中并未提及 ARC 奖，但据 The Information 报道，该公司可能为了适应后续的聊天版本而大幅削减了 o3-preview 的能力。

除了上述基准测试，ARC-AGI-3也在进行中，该测试要求模型在类似游戏的交互环境中通过反复试验来解决任务。尽管人类可以轻松应对，但大多数 AI 代理在视觉益智游戏中仍然面临挑战。数字化转型网www.szhzxw.cn

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）鲍勃

AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析

制造业出海的整体趋势如何？

中国数字经济新趋势：从数字化出海到出海数字化

上半年规模以上工业运行情况

工业数字化：MES/MOM系统架构与功能解析

顺应前沿技术新趋势，打造产业发展新高地

联系我们

微信扫一扫关注我们

OpenAI发布GPT-5 微软旗下生态宣布已全面接入

GPT-5评测：全面对比GPT-5、Claude 4 Opus、Gemini 2.5 Pro三大顶级AI模型

相关推荐

联系我们

微信扫一扫关注我们