伯克利团队30美元成本复刻 R1-Zero？-数智化转型网szhzxw.cn

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

来自UC伯克利博士生潘家怡和另两位研究人员，在CountDown游戏中复现了DeepSeek R1-Zero。

他们表示，结果相当出色！

实验中，团队验证了通过强化学习RL，3B的基础语言模型也能够自我验证和搜索。

更令人兴奋的是，成本不到30美金（约217元），就可以亲眼见证「啊哈」时刻。

这个项目叫做TinyZero，采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号，运行强化学习。

然后，团队将其应用在CountDown游戏中（这是一个玩家使用基础算术运算，将数字组合以达到目标数字的游戏）。

模型从最初的简单输出开始，逐步进化出自我纠正和搜索的策略。

在以下示例中，模型提出了解决方案，自我验证，并反复纠正，直到解决问题为止。

在消融实验中，研究人员运行了Qwen-2.5-Base（0.5B、1.5B、3B、7B四种参数规模）。

结果发现，0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始，模型学会了搜索、自我验证和修正其解决方案，从而能够获得更高的分数。

他们认为，在这个过程，基础模型的参数规模是决定性能的关键。

他们还验证了，额外的指令微调（SFT）并非是必要的，这也印证了R1-Zero的设计决策。

这是首个验证LLM推理能力的实现可以纯粹通过RL，无需监督微调的开源研究基础模型和指令模型两者区别：

此外，他们还发现，具体的RL算法并不重要。PPO、GRPO、PRIME这些算法中，长思维链（Long CoT）都能够涌现，且带来不错的性能表现。

而且，模型在推理行为中非常依赖于具体的任务：

苹果机器学习科学家Yizhe Zhang对此表示，太

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然。

伯克利团队30美元成本复刻 R1-Zero？