数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|微软推出新型 AI Agent 模型 rStar2-Agent,以 140 亿参数挑战大规模模型

人工智能资讯|微软推出新型 AI Agent 模型 rStar2-Agent,以 140 亿参数挑战大规模模型

微软最近在 AI 领域取得了显著突破,开源了一款名为 rStar2-Agent 的 AI Agent 推理模型。这款模型采用了创新的智能体强化学习方法,令人惊讶的是,尽管其参数仅有140亿,但在 AIME24数学推理测试中,准确率高达80.6%,成功超越了拥有6710亿参数的 DeepSeek-R1(79.8%)。这样的表现让人们重新思考模型的参数规模与性能之间的关系。

除了数学推理任务的优秀成绩,rStar2-Agent 在其他领域的表现同样引人注目。在 GPQA-Diamond 科学推理基准测试中,该模型的准确率为60.9%,超越了 DeepSeek-V3的59.1%;在 BFCL v3智能体工具使用任务中,其任务完成率达到60.8%,同样高于 DeepSeek-V3的57.6%。这些数据表明,rStar2-Agent 在各类任务中展现出了强大的泛化能力。

为了实现这一突破,微软在训练基础设施、算法和训练流程上进行了三大创新。首先,在基础设施方面,微软构建了一个高效的隔离式代码执行服务,能够快速处理大量的训练请求,支持每训练步骤高达4.5万次的并发工具调用,平均延迟仅为0.3秒。其次,微软提出了新的 GRPO-RoC 算法,通过有效的奖励机制和算法优化,使得模型在推理过程中更加准确和高效。最后,rStar2-Agent 设计了 “非推理微调 + 多阶段强化学习” 的高效训练流程,以确保模型在各个阶段都能稳步提升能力。

这一系列的技术突破使得 rStar2-Agent 在 AI Agent 领域崭露头角,也为未来的智能体研究和应用开辟了新的方向。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)萍水

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/92568.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部