人工智能资讯|微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型-数智化转型网szhzxw.cn

微软最近在 AI 领域取得了显著突破，开源了一款名为 rStar2-Agent 的 AI Agent 推理模型。这款模型采用了创新的智能体强化学习方法，令人惊讶的是，尽管其参数仅有140亿，但在 AIME24数学推理测试中，准确率高达80.6%，成功超越了拥有6710亿参数的 DeepSeek-R1（79.8%）。这样的表现让人们重新思考模型的参数规模与性能之间的关系。

除了数学推理任务的优秀成绩，rStar2-Agent 在其他领域的表现同样引人注目。在 GPQA-Diamond 科学推理基准测试中，该模型的准确率为60.9%，超越了 DeepSeek-V3的59.1%;在 BFCL v3智能体工具使用任务中，其任务完成率达到60.8%，同样高于 DeepSeek-V3的57.6%。这些数据表明，rStar2-Agent 在各类任务中展现出了强大的泛化能力。

为了实现这一突破，微软在训练基础设施、算法和训练流程上进行了三大创新。首先，在基础设施方面，微软构建了一个高效的隔离式代码执行服务，能够快速处理大量的训练请求，支持每训练步骤高达4.5万次的并发工具调用，平均延迟仅为0.3秒。其次，微软提出了新的 GRPO-RoC 算法，通过有效的奖励机制和算法优化，使得模型在推理过程中更加准确和高效。最后，rStar2-Agent 设计了 “非推理微调 + 多阶段强化学习” 的高效训练流程，以确保模型在各个阶段都能稳步提升能力。

这一系列的技术突破使得 rStar2-Agent 在 AI Agent 领域崭露头角，也为未来的智能体研究和应用开辟了新的方向。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）萍水

人工智能资讯|微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型

零售企业“出海”靠谱吗

文字解读：《贵州省“十四五”基础材料产业发展规划》解读

《铁路无线电管理办法》解读

企业会关注哪些数据相关的问题

一图读懂丨二十大报告多处@信息通信业

联系我们

微信扫一扫关注我们

人工智能资讯|ChatGPT或将实现近百亿美元收入 未来5年收入将比早前的预测提升15%

人工智能资讯|阿斯麦出资13亿欧元，成为Mistral AI最大股东

相关推荐

联系我们

微信扫一扫关注我们

人工智能资讯|ChatGPT或将实现近百亿美元收入未来5年收入将比早前的预测提升15%