数智化转型网szhzxw.cn 人工智能 人工智能资讯|OpenAI O1指向新的Scaling Law

人工智能资讯|OpenAI O1指向新的Scaling Law

数字化转型网人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入!

本文回答了以下问题:

一、o1模型出现的意义是什么

二、o1模型本质上的变化是什么,对行业算力需求有何影响

三、人类距离AGI尚有几步之遥,高确定性的AI发展思路是什么

从海外产业调研情况来看,据弘则研究,北美科技公司管理层2024年普遍认为AI算力资本开支方面不持续投入的风险,相较于应用端盈利风险而言,来得更大,因此AI大模型未来商业化兑现的市场信心犹在。从互联网公司现金流储备和云服务变现的角度上看,2025年资本开支的持续性问题不大,反倒是2026年资本开支将成为核心问题,这也将直接涉及市场信心能否继续给予英伟达30x的估值。现阶段数据中心规模最大的四家主流互联网,2025年资本开支预计将继续大幅增长达40%,进而资本开支将上升至3150亿美元创历史新高,北美管理层对算力未来持续兑现的信心可见一斑。值得注意的是,全球应用端现阶段尚未商业化落地,特别是C端碎片化推理场景,显著增加了端侧的推理难度,现阶段市场上已有的产品并不能帮助用户解决复杂任务或跨APP场景,因此通向AGI是大模型厂商未来唯一的成功之路。短期来看,9月13日OpenAl O1的出现无疑让市场看到了大模型逻辑推理能力大幅度提高的可行性,进而将带来C端产品加速落地的市场预期。 数字化转型网www.szhzxw.cn

一、C端碎片化推理场景难度高,OpenAl O1出现让市场看见产品加速落地的希望

消费者终端推理需求的场景相较B端而言更加广泛而复杂,需要大模型具备很高的逻辑推理能力,先前的GPT4o在逻辑推理能力方面依旧差强人意。直到此次2024年9月13日推出GPTo1模型,在逻辑推理能力上大幅提升。 数字化转型网www.szhzxw.cn

此次GPTo1模型重现了当年AlphaGo强化学习的成功,通过使用了一种全新的训练方法,即采用自我博弈强化学习Self-play RL技术,这种技术大幅提升了模型的推理能力和复杂问题解决能力,进而在具有挑战性的推理基准上比 GPT4o 有了很大的改进。同时这也是从方法上,o1 大模型首次证明了语言模型可以进行真正的强化学习。

此处引用OpenAI官方的一个具体案例,借此来说明o1目前的逻辑推理能力到底达到何种水平。此案例是一个“密码破译”的例子,给定一串密文“oyfjdnisdr rtqwainr acxz mynzbhhx”,它应该翻译成明文“Think step by step”,请根据以上规则,翻译以下密文:“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”。先前的模型GPT4o的回答是,尝试了进行分词破译,但最后无法破译密码,认为只给出一个案例是不够的,希望我们给予更多提示。相比之下,模型o1的回答是,首先,o1对给出的问题进行分析,认为可以先检查一下每个单词的长度。它敏锐的发现,密文中每个单词的长度,和明文中每个单词的长度之间,有着2倍的关系,即:

oyfjdnisdr(10个字符)-> Think(5个字符)

rtqwainr(8个字符)-> step(4个字符)

在这个基础上,o1推测应该存在一种映射关系,使得密文中相邻的2个字符能够映射为明文中的1个字符,进而o1继续思考,那怎么才能把“oy”映射到“T”。

接下来针对这个问题,o1进行了多种尝试。首先,按字母在字母表中的顺序位置,可以假设o等于15,y等于25,T等于20。随后,o1尝试了加法,尝试了减法,发现都不对。接着o1尝试把o和y相加,并对26求模,发现也不对。 数字化转型网www.szhzxw.cn

通过不断试错,最后o1发现,把o和y相加再除以2,正好等于T。发现规律的时候,o1说:Wait a minute, that seems promising。随后,o1把这个规则用在了其他字符组上进行验证,都成功了。

因此,o1找到了密码破译的规则,那就是把密文中相邻2个字符在字母表中的位数相加并除以2,就得到了明文字符在字母表中的位置。通过这个规则,o1把“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”这串密码成功翻译了出来,答案是:There are three R’s in Strawberry.

与GPTo1之前的多个传统大模型相比,传统大模型通常是基于Prompt的人机一问一答形式,需要使用者先写非常复杂的Prompt才能有可能引导大模型逐步解答复杂问题,进而与传统大模型互动的方式更像是静态的输入输出。值得关注的是,此次的o1大模型反馈出了一个动态的决策框架,进而使o1有能力处理更复杂多样化的决策任务,从而为大模型从先前的“语言理解及表达能力”的成功,开始迈向现实世界所需的复杂逻辑推理能力。 数字化转型网www.szhzxw.cn

与此同时,在许多推理密集型基准测试中,o1 的表现可与人类专家相媲美。此次OpenAI 在 AIME 上评估了数学成绩,这是一项旨在测试美国最聪明高中数学学生的考试。在 2024 年 AIME 考试中,GPT-4o 平均只解决了 12% (1.8/15) 的问题,而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15),在 64 个样本之间达成一致的情况下为 83% (12.5/15),在使用学习的评分函数对 1000 个样本重新排序时为 93% (13.9/15)。13.9 分可以跻身全美前 500 名,并且高于美国数学奥林匹克竞赛分数线。

OpenAI 还在 GPQA Diamond 基准上评估了 o1,这是一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI 聘请了拥有博士学位的专家来回答 GPQA Diamond 基准问题。实验结果表明:o1 超越了人类专家的表现,成为第一个在该GPQA Diamond基准测试中做到这一点的模型。同时启用视觉感知能力后,o1 在 MMMU 基准上得分为 78.2%,成为第一个与人类专家相当的模型。o1 还在 57 个 MMLU 子类别中的 54 个上优于 GPT-4o。

二、人类距离AGI尚有几步之遥

从产业发展的角度上来看,此次o1本质上是算法及训练数据的创新,o1的出现预计会阶段性地改变大模型下一步的发展方向,即,对Scaling Law的信仰不再只是一味地通过追求加大数据及模型规模,进而来实现大模型整体性能的跃升,而是将会把重心放在现实版的逻辑推理能力的跃升方面,这也是人类迈向AGI最为关键的一环。大模型的逻辑推理能力越高,则能解锁更多场景应用,消费者终端的应用天花板也就会越高。预测这也将放缓2025年行业对算力训练侧的狂热追求,阶段性转向构建高质量逻辑数据库,数学物理题、学术论文等,进而提升逻辑推理数据在大模型训练中的数据占比,因此合成数据、数据清洗等方式将成为接下来的行业发展重点。 数字化转型网www.szhzxw.cn

人类距离AGI尚有几步之遥。ARC-AGI是由Google的AI学者François Chollet所构建,其认为目前市面上对AGI的定义是模糊不清的,而真正的AGI应该是:一个能够有效掌握新技能,并解决开放域问题的系统。根据这一定义,创造了ARC-AGI测试集,专门测试各种AI模型是否真正意义上达到了AGI。

测试题如下,给出几个图例,让AI从中寻找规则,然后在右边的图中给出答案。对于我们人类而言,从中寻找出规则并不困难。比如在左边的图中,应该在红色的色块四个角边上长出4个黄色色块,在蓝色色块的上下左右长出4个橙色色块,而对于浅蓝色和紫色色块而言,则不做变化。

但是对AI来说,要总结出这样的规则,并且推理出准确的答案,并非易事。根据测评结果,o1模型的一次通过率为21%,相比GPT4的9%确实有了明显的提升,但距离AGI 85%的门槛,现阶段尚有几步之遥。这也说明,o1目前虽然在逻辑推理能力上前进了一大步,但是人类还需要经过更加深入的探索,才能不断逼近AGI的目标。 数字化转型网www.szhzxw.cn

现阶段o1模型最大的价值在于,它向行业证明了通过强化学习RL,叠加蒙特卡罗树搜索算法MCTS,显著增加了大模型的逻辑推理能力。数年前AlphaGo自博弈强化学习的成功,使用的是蒙特卡罗树搜索算法MCTS中的一种,可以较为有效地解决一些搜索空间巨大的问题,一般的围棋算法都是基于MCTS所实现。此次o1通过RL+MCTS,确实可以训练大模型快速找到通向正确答案的思维链COT路径。在o1出现之前,COT能力更多是一种需要使用者自己先写非常复杂的Prompt才能有可能引导大模型逐步解答复杂问题,而o1的价值在于将思维链COT的能力内化到了大模型之中,进而决策任务越复杂,则搜索空间越大,通向正确答案的思维链COT路径步骤也越复杂,而这也正是此次OpenAI所强调的“A new series of AI models designed to spend more time thinking before they respond”,即o1将会需要更多时间思考从而实现全局的角度去推演决策任务,而这也意味着存在一个全新的维度,能够有效提升大模型的推理能力,即Scaling up推理算力,而不仅仅只是聚焦在Scaling up训练算力,进而预测行业的推理侧算力需求将会首次开始被放大,定制化芯片ASIC的崛起也将是必然。

数字化转型网人工智能专题

与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入! 数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于新财富;编辑/翻译:数字化转型网宁檬树。

数字化资料下载-思思
此图片的alt属性为空;文件名为%E5%AE%98%E7%BD%91%E8%AF%BB%E8%80%85%E7%BE%A42.png
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/44519.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部