当AI模型军备竞赛让算力难以承受时,OpenAI前首席技术官Mira Murati领导了Thinking Machines Lab,推出了一项名为“On-Policy Distillation”的突破性技术,该技术正在重置行业。最近的研究表明,一个只有80亿个参数的小模型在用这种方法训练后,可以达到32B模型70%的性能,同时训练成本下降了90%,效率提高了50到100倍。这意味着中小企业以及个人开发人员也可以以极低的成本训练专业化AI,可以与大公司相媲美。
50-100 倍效率跃升:150 步超越 18,000 GPU 小时
传统的强化学习(RL)训练往往需要数千步和海量计算能力。例如,在数学推理任务AIME’24中,纯RL方法消耗了17920个GPU小时,准确率仅为68%。然而,使用策略蒸馏的Qwen3-8B模型仅用了150个训练步骤就实现了70%的准确率,计算成本几乎可以忽略不计。
核心在于“每个 token 密集反馈”机制:与 RL 在每集结束时只给出稀疏奖励不同,on-policy 蒸馏允许教师模型为学生生成的每个 token 提供实时分数,提供持续、精确的指导信号。这不仅加速了收敛,还有效防止了长序列训练过程中的“策略漂移”,确保小模型在有限的资源下始终如一地产生高质量的结果。
解决“灾难性遗忘”:学习新知识,不失旧技能
AI模型在被注入新知识时,往往会“忘记”原有的能力。实验表明,在与内部文档进行微调后,模型的指令跟随能力从85%下降到45%。然而,通过实时轨迹采样和逐步教师修正的政策蒸馏,保留了41%的新知识,同时将原有能力迅速恢复到83%,远超传统的微调或离线蒸馏。
这一特性使其特别适合企业场景:模型可以在不失去基础对话、工具调用等核心能力的情况下动态学习业务规则和产品文档,真正实现“持续进化”。
四步循环:架构简单,实现可访问
这种方法非常轻量级,一个循环只需要四个步骤:
部署教师模型(如32B模型)作为监督源;
学生模型生成响应轨迹;
老师计算每个token的对数概率;
使用反向 Kullback-Leibler 散度作为损失来优化学生参数。
不需要复杂的基础设施;它与现有的蒸馏框架兼容,可实现“经济高效且准确”的性能飞跃。论文指出,这项技术可以无缝扩展到代码生成和多模态推理等任务,为“师生”协同训练开辟了新的路径。
米拉·穆拉蒂的“降级罢工”:人工智能民主化的关键
作为OpenAI的前CTO,Murati将自己在大模型训练方面的实践经验带回,构建了一个高效的小模型生态系统。在当今人工智能安全性和对齐性日益重要的时代,政策蒸馏不仅提高了效率,还通过受控的知识转移增强了模型行为的可预测性。
业内专家预测,这项技术将极大地推动开源模型和边缘AI的发展。当8B模型能够处理32B任务时,手机、物联网设备,甚至本地服务器都将成为高性能AI的载体。智能正在从“云垄断”转向“人人可访问”。
这场由穆拉蒂引发的训练革命,或许是AI从“巨人的游戏”转向“常用工具”的转折点。当小模型可以像大模型一样智能时,真正的智能民主化时代才刚刚开始。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
