数智化转型网szhzxw.cn 人工智能资讯 AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析

AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析

根据 ARC 奖最新发布的测试结果,主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中,GPT-5(高级) 的得分为9.9%,每项任务成本为0.73美元。而 Grok4(思考型) 的表现略胜一筹,准确率达到16%,但其成本也更高,每项任务需要2至4美元。这表明在复杂的推理任务上,Grok4性能占优,但成本效益远不如 GPT-5。数字化转型网www.szhzxw.cn

在要求相对较低的 ARC-AGI-1 测试中,Grok4再次以68% 的准确率领先,略高于 GPT-5的65.7%。尽管 Grok4的准确率更高,但其每项任务约1美元的成本远高于 GPT-5的0.51美元,使得 GPT-5 在此测试中更具性价比。不过,xAI 仍有可能通过价格调整来缩小这一差距。

此外,报告还提到了 GPT-5的轻量级版本。GPT-5Mini 在 AGI-1和 AGI-2上的得分分别为54.3% 和4.4%,成本分别为0.12美元和0.20美元。而更小巧的 GPT-5Nano 在 AGI-1上达到16.5%(0.03美元),在 AGI-2上达到2.5%(0.03美元)。数字化转型网www.szhzxw.cn

值得注意的是,在 ARC-AGI-1测试中,于2024年12月发布的 o3-preview 模型以接近80% 的惊人准确率遥遥领先,但其成本远超其他竞争者。尽管 OpenAI 在其 GPT-5演示中并未提及 ARC 奖,但据 The Information 报道,该公司可能为了适应后续的聊天版本而大幅削减了 o3-preview 的能力。

除了上述基准测试,ARC-AGI-3也在进行中,该测试要求模型在类似游戏的交互环境中通过反复试验来解决任务。尽管人类可以轻松应对,但大多数 AI 代理在视觉益智游戏中仍然面临挑战。数字化转型网www.szhzxw.cn

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)鲍勃

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/89340.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部