突发，OpenAI凌晨发布全新o1系列推理模型的o1-preview以及o1-mini！新模型的推理能力引人注目！-数字化转型网www.szhzxw.cn

数字化转型网人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

北京时间凌晨一点，OpenAI在没有任何预告下正式发布了全新o1系列模型，也就是传说中的「草莓」！

全新o1系列模型可以进行通用复杂推理的人工智能，因此，OpenAI的 CEO奥特曼称它是一种新范式的开始。

o1系列是OpenAI首个经过强化学习训练的模型，在输出回答之前，会在产生一个很长的思维链，以此增强模型的能力。数字化转型网www.szhzxw.cn

OpenAI的推理到底怎么样？通过一个演示来说明：

视频来源于数字化转型网视频号

从OpenAI的官方信息看下来，总结o1的特点就是：更大、更强、更慢、更贵。

经过强化学习（Reinforcement Learning），OpenAI o1在推理能力方面取得了重大进展。研发团队观察到，随着训练时间（强化学习的增加）和思考时间（测试时的计算）的延长，o1模型的表现逐渐提升。这种方法的扩展所面临的挑战与大型语言模型（LLM）的预训练限制截然不同。

新模型的推理能力吸引很多人的关注。Sam Altman 更是直接在X上贴出了o1与GPT-4o在数学、编程和解决博士级别科学题目上的能力对比。数字化转型网www.szhzxw.cn

最左边的柱形代表目前OpenAI的主力模型GPT-4o。今天放出来的o1预览版为中间的橙色柱形。

可以看到，在2024年美国数学邀请赛的竞赛题和Codeforces算法竞赛题上，o1预览版解决数学和编程问题的能力，比起GPT-4o，提升了5-6倍。而可怕的是，深橙色的柱形，代表真正的o1，相比于GPT-4o，提升了8-9 倍！ 数字化转型网www.szhzxw.cn

最后一个图中，OpenAI还列出了人类专家在解决博士级别科学题目的时的成功率，大约在69.7%，而o1预览版和o1，都已经超过了人类专家的水平。

o1系列推理模型有两个，包含o1-preview以及o1-mini。

一、o1系列及o1-preview模型

我们开发了一系列新的AI模型，旨在花更多时间思考，然后再做出响应。他们可以推理复杂的任务并解决比以前的科学、编码和数学模型更难的问题。数字化转型网www.szhzxw.cn

今天，我们在ChatGPT和我们的API中发布了该系列的第一个。这是一个预览，我们期待定期更新和改进。除了此版本外，我们还包括对下一个更新的评估，目前正在开发中。

1. 运作方式

我们训练这些模型在问题做出响应之前花更多时间思考问题，就像一个人一样。通过培训，他们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在我们的测试中，下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o仅正确解决了13%的问题，而推理模型得分为83%。他们的编码能力在比赛中得到了评估，并在Codeforces比赛中达到了第89个百分位。您可以在我们的技术研究帖子中阅读更多相关信息。

作为早期模型，它还不具备使ChatGPT有用的许多功能，例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况，GPT-4o在短期内会更有能力。数字化转型网www.szhzxw.cn

但对于复杂的推理任务来说，这是一个重大进步，代表了AI能力的新水平。鉴于此，我们将计数器重置回1并将此系列命名为OpenAI o1。数字化转型网www.szhzxw.cn

2. 安全

作为开发这些新模型的一部分，我们提出了一种新的安全培训方法，该方法利用他们的推理能力使他们遵守安全和对齐准则。通过能够在上下文中推理我们的安全规则，它可以更有效地应用它们。

我们衡量安全性的一种方法是，在用户试图绕过安全规则（称为“越狱”）时，我们的模型继续遵守其安全规则的程度。在我们最难的越狱测试之一中，GPT-4o得分为22（0-100 分），而我们的o1-preview模型得分为84。您可以在系统卡和我们的研究帖子中阅读更多相关信息。

为了匹配这些模型的新功能，我们加强了安全工作、内部治理和联邦政府合作。这包括使用我们的准备框架（在新窗口中打开），一流的红队，以及董事会级别的审查流程，包括我们的安全与保障委员会。

为了推进我们对AI安全的承诺，我们最近与美国和英国AI安全研究所正式达成协议。我们已经开始实施这些协议，包括允许这些机构提前获得该模型的研究版本。这是我们合作中重要的第一步，有助于建立未来模型公开发布之前和之后的研究、评估和测试流程。数字化转型网www.szhzxw.cn

3. 适用对象

如果您正在处理科学、编码、数学和类似领域的复杂问题，这些增强的推理功能可能特别有用。例如，医疗保健研究人员可以使用它来注释细胞测序数据，物理学家可以使用它来生成量子光学所需的复杂数学公式，所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

二、OpenAI o1-mini

o1系列擅长准确生成和调试复杂代码。为了向开发人员提供更高效的解决方案，我们还发布了OpenAI o1-mini，这是一种更快、更便宜的推理模型，在编码方面特别有效。作为较小的模型，o1-mini比o1-preview便宜80%，使其成为一个功能强大、经济高效的模型，适用于需要推理但不需要广泛世界知识的应用程序。数字化转型网www.szhzxw.cn

在需要智能和推理的基准测试中进行评估时，与o1-preview和o1相比，o1-mini表现良好。但是，o1-mini 在需要非STEM事实知识的任务上表现较差（请参阅限制）。

数字化转型网人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于数字化网；编辑/翻译：数字化转型网宁檬树。

突发，OpenAI凌晨发布全新o1系列推理模型的o1-preview以及o1-mini！新模型的推理能力引人注目！

数字化转型网人工智能专题

一、o1系列及o1-preview模型

1. 运作方式

2. 安全

3. 适用对象

二、OpenAI o1-mini

数字化转型网人工智能专题

工业和信息化部办公厅财政部办公厅关于发布2018年工业转型升级资金工作指南的通知

Bain & Company：AI需求激增可能再次导致全球芯片短缺

人工智能资讯|英伟达将开售DGX Spark个人 AI 超级计算机，售价 3999 美元

2025 CBE·胡润中国彩妆品牌TOP10

人工智能资讯|OpenAI 与立讯精密达成协议，后者将负责组装至少一款OpenAI的新设备

联系我们

微信扫一扫关注我们

数字化转型网人工智能专题

一、o1系列及o1-preview模型

1. 运作方式

2. 安全

3. 适用对象

二、OpenAI o1-mini

数字化转型网人工智能专题

“无人”工厂有大智慧——探访全球最先进的智能制造工厂郑州富士康

华为苹果同天“炫技” 恒友汇《下半年指引》AI产业新机遇

相关推荐

联系我们

微信扫一扫关注我们