数字化转型网人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

北京时间凌晨一点,OpenAI在没有任何预告下正式发布了全新o1系列模型,也就是传说中的「草莓」!

全新o1系列模型可以进行通用复杂推理的人工智能,因此,OpenAI的 CEO奥特曼称它是一种新范式的开始。
o1系列是OpenAI首个经过强化学习训练的模型,在输出回答之前,会在产生一个很长的思维链,以此增强模型的能力。 数字化转型网www.szhzxw.cn
OpenAI的推理到底怎么样?通过一个演示来说明:
视频来源于数字化转型网视频号
从OpenAI的官方信息看下来,总结o1的特点就是:更大、更强、更慢、更贵。
经过强化学习(Reinforcement Learning),OpenAI o1在推理能力方面取得了重大进展。研发团队观察到,随着训练时间(强化学习的增加)和思考时间(测试时的计算)的延长,o1模型的表现逐渐提升。这种方法的扩展所面临的挑战与大型语言模型(LLM)的预训练限制截然不同。


新模型的推理能力吸引很多人的关注。Sam Altman 更是直接在X上贴出了o1与GPT-4o在数学、编程和解决博士级别科学题目上的能力对比。 数字化转型网www.szhzxw.cn

最左边的柱形代表目前OpenAI的主力模型GPT-4o。今天放出来的o1预览版为中间的橙色柱形。
可以看到,在2024年美国数学邀请赛的竞赛题和Codeforces算法竞赛题上,o1预览版解决数学和编程问题的能力,比起GPT-4o,提升了5-6倍。而可怕的是,深橙色的柱形,代表真正的o1,相比于GPT-4o,提升了8-9 倍! 数字化转型网www.szhzxw.cn
最后一个图中,OpenAI还列出了人类专家在解决博士级别科学题目的时的成功率,大约在69.7%,而o1预览版和o1,都已经超过了人类专家的水平。

o1系列推理模型有两个,包含o1-preview以及o1-mini。
一、o1系列及o1-preview模型

我们开发了一系列新的AI模型,旨在花更多时间思考,然后再做出响应。他们可以推理复杂的任务并解决比以前的科学、编码和数学模型更难的问题。 数字化转型网www.szhzxw.cn
今天,我们在ChatGPT和我们的API中发布了该系列的第一个。这是一个预览,我们期待定期更新和改进。除了此版本外,我们还包括 对下一个更新的评估,目前正在开发中。
1. 运作方式
我们训练这些模型在问题做出响应之前花更多时间思考问题,就像一个人一样。通过培训,他们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
在我们的测试中,下一次模型更新的性能类似于博士生在物理、化学和生物学中具有挑战性的基准任务。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克竞赛(IMO)的资格考试中,GPT-4o仅正确解决了13%的问题,而推理模型得分为83%。他们的编码能力在比赛中得到了评估,并在Codeforces比赛中达到了第89个百分位。您可以在我们的技术研究帖子中阅读更多相关信息。
作为早期模型,它还不具备使ChatGPT有用的许多功能,例如浏览网页以获取信息以及上传文件和图像。对于许多常见情况,GPT-4o在短期内会更有能力。 数字化转型网www.szhzxw.cn

但对于复杂的推理任务来说,这是一个重大进步,代表了AI能力的新水平。鉴于此,我们将计数器重置回1并将此系列命名为OpenAI o1。 数字化转型网www.szhzxw.cn
2. 安全
作为开发这些新模型的一部分,我们提出了一种新的安全培训方法,该方法利用他们的推理能力使他们遵守安全和对齐准则。通过能够在上下文中推理我们的安全规则,它可以更有效地应用它们。
我们衡量安全性的一种方法是,在用户试图绕过安全规则(称为“越狱”)时,我们的模型继续遵守其安全规则的程度。在我们最难的越狱测试之一中,GPT-4o得分为22(0-100 分),而我们的o1-preview模型得分为84。您可以在系统卡和我们的研究帖子中阅读更多相关信息。
为了匹配这些模型的新功能,我们加强了安全工作、内部治理和联邦政府合作。这包括使用我们的准备框架(在新窗口中打开),一流的红队,以及董事会级别的审查流程,包括我们的安全与保障委员会。
为了推进我们对AI安全的承诺,我们最近与美国和英国AI安全研究所正式达成协议。我们已经开始实施这些协议,包括允许这些机构提前获得该模型的研究版本。这是我们合作中重要的第一步,有助于建立未来模型公开发布之前和之后的研究、评估和测试流程。 数字化转型网www.szhzxw.cn
3. 适用对象
如果您正在处理科学、编码、数学和类似领域的复杂问题,这些增强的推理功能可能特别有用。例如,医疗保健研究人员可以使用它来注释细胞测序数据,物理学家可以使用它来生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用它来构建和执行多步骤工作流程。

二、OpenAI o1-mini

o1系列擅长准确生成和调试复杂代码。为了向开发人员提供更高效的解决方案,我们还发布了OpenAI o1-mini,这是一种更快、更便宜的推理模型,在编码方面特别有效。作为较小的模型,o1-mini比o1-preview便宜80%,使其成为一个功能强大、经济高效的模型,适用于需要推理但不需要广泛世界知识的应用程序。 数字化转型网www.szhzxw.cn
在需要智能和推理的基准测试中进行评估时,与o1-preview和o1相比,o1-mini表现良好。但是,o1-mini 在需要非STEM事实知识的任务上表现较差(请参阅 限制)。

数字化转型网人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入! 数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于数字化网;编辑/翻译:数字化转型网宁檬树。




