Microsoft 最近发布了 Agent Lightning,这是一个开源框架,旨在通过强化学习 (RL) 优化多代理系统。Agent Lightning 可以在不改变现有代理架构的情况下将真实的代理行为转换为 RL 转换,从而提高大规模语言模型 (LLM) 的性能。
代理闪电将代理建模为决策过程,特别是将代理形式化为部分可观察的马尔可夫决策过程。代理的观察是当前输入,其作是模型调用,奖励可以是终端奖励或中间奖励。该框架提取代理模型的调用日志,以及输入、输出和奖励信息,过滤掉不必要的噪音,生成干净的过渡数据进行训练。
该框架采用“训练和部署解耦”的方式,Lightning Server 处理训练和服务,并提供与 OpenAI 兼容的 API 接口,可以轻松调用更新的模型。同时,Lightning 客户端捕获现有代理运行时中的呼叫日志,并将数据实时发送回服务器。这种设计保持了与工具、浏览器和其他依赖项的紧密集成,同时将 GPU 训练放在服务器层上。
闪电代理支持两种跟踪路径。默认路径使用 OpenTelemetry 进行数据收集,方便将代理遥测信息发送到标准收集器。还有一个轻量级的嵌入式跟踪器,适用于不想部署 OpenTelemetry 的团队。最终,所有数据都存储在同一位置以用于训练目的。
在实验方面,研究团队评估了三个任务:文本转 SQL、检索增强生成和数学 QA。文本转 SQL 任务使用 Spider 基准测试,涵盖 10,000 多个问题和 200 个数据库。检索增强生成使用 MuSiQue 基准测试,该基准测试建立在包含 2100 万个文档的维基百科规模索引之上。Math QA 使用 Calc X 数据集,通过工具调用执行计算。对每项任务的训练显示出稳定的奖励改进。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
