人工智能资讯|OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家-数智化转型网szhzxw.cn

近日，OpenAI 推出了一项新的基准测试，旨在评估其人工智能模型在各行业与人类专业人士的表现差异。这项名为 GDPval 的测试，是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。根据 OpenAI 的说法，GPT-5模型与 Anthropic 的 Claude Opus4.1模型在某些领域的工作质量已经接近行业专家。

不过，OpenAI 也指出，这些模型并不会立即取代人类工作。尽管一些企业高管预测人工智能将在几年内取代人类的工作，但 OpenAI 承认，当前的 GDPval 测试仅涵盖了人类工作中的一小部分任务。因此，这只是评估人工智能进步的一种方式。

GDPval 测试涵盖了九个主要行业，这些行业对美国国内生产总值（GDP）贡献最大，包括医疗、金融、制造业和政府等领域。该测试评估了在这些行业中的44种职业表现，从软件工程师到护士、再到记者都有涉及。OpenAI 在初始测试中邀请了专业人士对 AI 生成的报告与其他专业人士的报告进行比较，并选择最佳者。例如，投资银行家被要求创建有关最后一公里配送行业的竞争对手分析报告，并与 AI 生成的报告进行比较。OpenAI 随后对 AI 模型在44个职业中 “胜出” 的比率进行了统计。

据悉，在经过增强计算能力的 GPT-5-high 版本测试中，该模型在与行业专家的比较中表现优于或与之持平的比例为40.6%。而 Anthropic 的 Claude Opus4.1模型在任务中表现优于或持平于行业专家的比例则高达49%。OpenAI 认为 Claude 模型的高分主要得益于其制作美观图形的能力，而非单纯的表现。

值得注意的是，大多数工作专业人士的职责远不止提交研究报告，因此，GDPval-v0的测试范围相对有限。OpenAI 表示，未来计划开发更全面的测试，以涵盖更多行业和互动工作流程。尽管如此，公司仍对 GDPval 的进展感到乐观。

OpenAI 首席经济学家亚伦・查特吉在接受采访时表示，GDPval 的结果表明，在这些职业中，人们可以利用人工智能模型将时间花在更有意义的任务上。随着模型能力的提升，专业人士将能够利用这些工具，减轻部分工作负担，从而专注于更高价值的工作。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）萍水

人工智能资讯|OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

研究丨中外数字政府建设比较及启示

人工智能资讯|Google Chrome 赋予用户更大控制权：本地 AI 欺诈检测模型现在可以手动禁用

广西轻工业振兴方案（2019—2021年）

人工智能资讯|法律类AI平台实测：幂律智能AI律师——吾律，附试用指南

晶泰科技赋能溪砾科技”AI+RNA”罕见病新药再获临床批件，有望”一药多治”撬动千亿级疾病治疗市场

联系我们

微信扫一扫关注我们

人工智能资讯|千里科技品牌升级，发布“AFARI”新标识及“千里计划”

人工智能资讯|前 Stability AI CEO：AI 革命将让人类智力价值归零，未来 1000 天面临巨变

相关推荐

联系我们

微信扫一扫关注我们