人工智能资讯|OpenAI O1指向新的Scaling Law-数字化转型网www.szhzxw.cn

数字化转型网人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

本文回答了以下问题：

一、o1模型出现的意义是什么

二、o1模型本质上的变化是什么，对行业算力需求有何影响

三、人类距离AGI尚有几步之遥，高确定性的AI发展思路是什么

从海外产业调研情况来看，据弘则研究，北美科技公司管理层2024年普遍认为AI算力资本开支方面不持续投入的风险，相较于应用端盈利风险而言，来得更大，因此AI大模型未来商业化兑现的市场信心犹在。从互联网公司现金流储备和云服务变现的角度上看，2025年资本开支的持续性问题不大，反倒是2026年资本开支将成为核心问题，这也将直接涉及市场信心能否继续给予英伟达30x的估值。现阶段数据中心规模最大的四家主流互联网，2025年资本开支预计将继续大幅增长达40%，进而资本开支将上升至3150亿美元创历史新高，北美管理层对算力未来持续兑现的信心可见一斑。值得注意的是，全球应用端现阶段尚未商业化落地，特别是C端碎片化推理场景，显著增加了端侧的推理难度，现阶段市场上已有的产品并不能帮助用户解决复杂任务或跨APP场景，因此通向AGI是大模型厂商未来唯一的成功之路。短期来看，9月13日OpenAl O1的出现无疑让市场看到了大模型逻辑推理能力大幅度提高的可行性，进而将带来C端产品加速落地的市场预期。数字化转型网www.szhzxw.cn

一、C端碎片化推理场景难度高，OpenAl O1出现让市场看见产品加速落地的希望

消费者终端推理需求的场景相较B端而言更加广泛而复杂，需要大模型具备很高的逻辑推理能力，先前的GPT4o在逻辑推理能力方面依旧差强人意。直到此次2024年9月13日推出GPTo1模型，在逻辑推理能力上大幅提升。数字化转型网www.szhzxw.cn

此次GPTo1模型重现了当年AlphaGo强化学习的成功，通过使用了一种全新的训练方法，即采用自我博弈强化学习Self-play RL技术，这种技术大幅提升了模型的推理能力和复杂问题解决能力，进而在具有挑战性的推理基准上比 GPT4o 有了很大的改进。同时这也是从方法上，o1 大模型首次证明了语言模型可以进行真正的强化学习。

此处引用OpenAI官方的一个具体案例，借此来说明o1目前的逻辑推理能力到底达到何种水平。此案例是一个“密码破译”的例子，给定一串密文“oyfjdnisdr rtqwainr acxz mynzbhhx”，它应该翻译成明文“Think step by step”，请根据以上规则，翻译以下密文：“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”。先前的模型GPT4o的回答是，尝试了进行分词破译，但最后无法破译密码，认为只给出一个案例是不够的，希望我们给予更多提示。相比之下，模型o1的回答是，首先，o1对给出的问题进行分析，认为可以先检查一下每个单词的长度。它敏锐的发现，密文中每个单词的长度，和明文中每个单词的长度之间，有着2倍的关系，即：

oyfjdnisdr（10个字符）-> Think（5个字符）

rtqwainr（8个字符）-> step（4个字符）

在这个基础上，o1推测应该存在一种映射关系，使得密文中相邻的2个字符能够映射为明文中的1个字符，进而o1继续思考，那怎么才能把“oy”映射到“T”。

接下来针对这个问题，o1进行了多种尝试。首先，按字母在字母表中的顺序位置，可以假设o等于15，y等于25，T等于20。随后，o1尝试了加法，尝试了减法，发现都不对。接着o1尝试把o和y相加，并对26求模，发现也不对。数字化转型网www.szhzxw.cn

通过不断试错，最后o1发现，把o和y相加再除以2，正好等于T。发现规律的时候，o1说：Wait a minute, that seems promising。随后，o1把这个规则用在了其他字符组上进行验证，都成功了。

因此，o1找到了密码破译的规则，那就是把密文中相邻2个字符在字母表中的位数相加并除以2，就得到了明文字符在字母表中的位置。通过这个规则，o1把“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”这串密码成功翻译了出来，答案是：There are three R’s in Strawberry.

与GPTo1之前的多个传统大模型相比，传统大模型通常是基于Prompt的人机一问一答形式，需要使用者先写非常复杂的Prompt才能有可能引导大模型逐步解答复杂问题，进而与传统大模型互动的方式更像是静态的输入输出。值得关注的是，此次的o1大模型反馈出了一个动态的决策框架，进而使o1有能力处理更复杂多样化的决策任务，从而为大模型从先前的“语言理解及表达能力”的成功，开始迈向现实世界所需的复杂逻辑推理能力。数字化转型网www.szhzxw.cn

与此同时，在许多推理密集型基准测试中，o1 的表现可与人类专家相媲美。此次OpenAI 在 AIME 上评估了数学成绩，这是一项旨在测试美国最聪明高中数学学生的考试。在 2024 年 AIME 考试中，GPT-4o 平均只解决了 12% (1.8/15) 的问题，而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15)，在 64 个样本之间达成一致的情况下为 83% (12.5/15)，在使用学习的评分函数对 1000 个样本重新排序时为 93% (13.9/15)。13.9 分可以跻身全美前 500 名，并且高于美国数学奥林匹克竞赛分数线。

OpenAI 还在 GPQA Diamond 基准上评估了 o1，这是一个困难的智力基准，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，OpenAI 聘请了拥有博士学位的专家来回答 GPQA Diamond 基准问题。实验结果表明：o1 超越了人类专家的表现，成为第一个在该GPQA Diamond基准测试中做到这一点的模型。同时启用视觉感知能力后，o1 在 MMMU 基准上得分为 78.2%，成为第一个与人类专家相当的模型。o1 还在 57 个 MMLU 子类别中的 54 个上优于 GPT-4o。

二、人类距离AGI尚有几步之遥

从产业发展的角度上来看，此次o1本质上是算法及训练数据的创新，o1的出现预计会阶段性地改变大模型下一步的发展方向，即，对Scaling Law的信仰不再只是一味地通过追求加大数据及模型规模，进而来实现大模型整体性能的跃升，而是将会把重心放在现实版的逻辑推理能力的跃升方面，这也是人类迈向AGI最为关键的一环。大模型的逻辑推理能力越高，则能解锁更多场景应用，消费者终端的应用天花板也就会越高。预测这也将放缓2025年行业对算力训练侧的狂热追求，阶段性转向构建高质量逻辑数据库，数学物理题、学术论文等，进而提升逻辑推理数据在大模型训练中的数据占比，因此合成数据、数据清洗等方式将成为接下来的行业发展重点。数字化转型网www.szhzxw.cn

人类距离AGI尚有几步之遥。ARC-AGI是由Google的AI学者François Chollet所构建，其认为目前市面上对AGI的定义是模糊不清的，而真正的AGI应该是：一个能够有效掌握新技能，并解决开放域问题的系统。根据这一定义，创造了ARC-AGI测试集，专门测试各种AI模型是否真正意义上达到了AGI。

测试题如下，给出几个图例，让AI从中寻找规则，然后在右边的图中给出答案。对于我们人类而言，从中寻找出规则并不困难。比如在左边的图中，应该在红色的色块四个角边上长出4个黄色色块，在蓝色色块的上下左右长出4个橙色色块，而对于浅蓝色和紫色色块而言，则不做变化。

但是对AI来说，要总结出这样的规则，并且推理出准确的答案，并非易事。根据测评结果，o1模型的一次通过率为21%，相比GPT4的9%确实有了明显的提升，但距离AGI 85%的门槛，现阶段尚有几步之遥。这也说明，o1目前虽然在逻辑推理能力上前进了一大步，但是人类还需要经过更加深入的探索，才能不断逼近AGI的目标。数字化转型网www.szhzxw.cn

现阶段o1模型最大的价值在于，它向行业证明了通过强化学习RL，叠加蒙特卡罗树搜索算法MCTS，显著增加了大模型的逻辑推理能力。数年前AlphaGo自博弈强化学习的成功，使用的是蒙特卡罗树搜索算法MCTS中的一种，可以较为有效地解决一些搜索空间巨大的问题，一般的围棋算法都是基于MCTS所实现。此次o1通过RL+MCTS，确实可以训练大模型快速找到通向正确答案的思维链COT路径。在o1出现之前，COT能力更多是一种需要使用者自己先写非常复杂的Prompt才能有可能引导大模型逐步解答复杂问题，而o1的价值在于将思维链COT的能力内化到了大模型之中，进而决策任务越复杂，则搜索空间越大，通向正确答案的思维链COT路径步骤也越复杂，而这也正是此次OpenAI所强调的“A new series of AI models designed to spend more time thinking before they respond”，即o1将会需要更多时间思考从而实现全局的角度去推演决策任务，而这也意味着存在一个全新的维度，能够有效提升大模型的推理能力，即Scaling up推理算力，而不仅仅只是聚焦在Scaling up训练算力，进而预测行业的推理侧算力需求将会首次开始被放大，定制化芯片ASIC的崛起也将是必然。