人工智能资讯|斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架-数智化转型网szhzxw.cn

斯坦福大学的研究团队最近发布了 AgentFlow，这是一个可训练的智能代理框架，旨在通过模块化设计和工具集成，提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器（Planner）、执行器(Executor)、验证器(Verifier)和生成器(Generator)，并通过显式内存进行协调。在每一步中，规划器会提出子目标并选择适当的工具和上下文，执行器则负责调用工具，验证器则判断是否继续，而生成器则在任务完成后给出最终答案。数字化转型网（www.szhzxw.cn）

这一框架的核心创新在于其训练方法 ——Flow-GRPO（基于流的组精炼策略优化）。这种方法能够将长时间跨度、稀疏奖励的优化问题转化为可处理的单轮更新。具体来说，Flow-GRPO 会在每一步中广播一个单一的可验证的轨迹级信号，将成功的全局目标与局部步骤对齐。同时，它使用每个 token 的加权比率计算，结合 PPO 风格的剪辑和 KL 惩罚，防止策略漂移。数字化转型网（www.szhzxw.cn）

在多个基准测试中，研究团队对 AgentFlow 进行了评估，主要涵盖知识密集型搜索、代理推理、数学和科学四个任务类型。经过 Flow-GRPO 优化的7B 模型在10个基准上的表现平均提高了14.9%（搜索任务）、14.0%(代理推理)、14.5%(数学任务)和4.1%(科学任务)。研究团队表示，该模型在这些任务上超越了现有的强基线，甚至超过了 GPT-4o。数字化转型网（www.szhzxw.cn）

此外，研究还表明，使用 AgentFlow 的工具调用的可靠性有了显著提升，工具调用错误减少了28.4%。这些成果表明，在更大的轮次预算和模型规模下，规划质量有了明显改善。

AgentFlow 的公开实现展示了一个模块化工具包，并附带了快速启动脚本，方便用户进行推理、训练和基准测试。该项目采用 MIT 许可证，确保了其开源和可访问性，支持广泛的研究与开发。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网（www.szhzxw.cn）

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）Nick

人工智能资讯|斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架

2024胡润全球高质量企业TOP1000（301-400）

贵阳大数据交易所应邀参加第五届CCF中国区块链技术大会

常见攻击及防御技术详解——SYN-ACK Flood攻击

数据治理和数据管理辨析的区别有哪些

《关于推动工艺美术行业传承创新发展的指导意见》解读

联系我们

微信扫一扫关注我们

人工智能资讯|蚂蚁发布万亿参数语言模型 Ling-1T，推理速度与能力引领行业新标杆

人工智能资讯|OpenAI 发布全新 GPT-5 Pro API

相关推荐

联系我们

微信扫一扫关注我们