数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|斯坦福研究团队发布 AgentFlow:为模块化、工具使用的 AI 代理提供新一代强化学习框架

人工智能资讯|斯坦福研究团队发布 AgentFlow:为模块化、工具使用的 AI 代理提供新一代强化学习框架

斯坦福大学的研究团队最近发布了 AgentFlow,这是一个可训练的智能代理框架,旨在通过模块化设计和工具集成,提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器(Planner)、执行器(Executor)、验证器(Verifier)和生成器(Generator),并通过显式内存进行协调。在每一步中,规划器会提出子目标并选择适当的工具和上下文,执行器则负责调用工具,验证器则判断是否继续,而生成器则在任务完成后给出最终答案。数字化转型网(www.szhzxw.cn)

这一框架的核心创新在于其训练方法 ——Flow-GRPO(基于流的组精炼策略优化)。这种方法能够将长时间跨度、稀疏奖励的优化问题转化为可处理的单轮更新。具体来说,Flow-GRPO 会在每一步中广播一个单一的可验证的轨迹级信号,将成功的全局目标与局部步骤对齐。同时,它使用每个 token 的加权比率计算,结合 PPO 风格的剪辑和 KL 惩罚,防止策略漂移。数字化转型网(www.szhzxw.cn)

在多个基准测试中,研究团队对 AgentFlow 进行了评估,主要涵盖知识密集型搜索、代理推理、数学和科学四个任务类型。经过 Flow-GRPO 优化的7B 模型在10个基准上的表现平均提高了14.9%(搜索任务)、14.0%(代理推理)、14.5%(数学任务)和4.1%(科学任务)。研究团队表示,该模型在这些任务上超越了现有的强基线,甚至超过了 GPT-4o。数字化转型网(www.szhzxw.cn)

此外,研究还表明,使用 AgentFlow 的工具调用的可靠性有了显著提升,工具调用错误减少了28.4%。这些成果表明,在更大的轮次预算和模型规模下,规划质量有了明显改善。

AgentFlow 的公开实现展示了一个模块化工具包,并附带了快速启动脚本,方便用户进行推理、训练和基准测试。该项目采用 MIT 许可证,确保了其开源和可访问性,支持广泛的研究与开发。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网(www.szhzxw.cn)

此图片的alt属性为空;文件名为image-12.png

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)Nick

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/97330.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部