数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|Microsoft 推出 Agent Lightning:一种新的 AI 框架,可帮助通过强化学习训练大型语言模型

人工智能资讯|Microsoft 推出 Agent Lightning:一种新的 AI 框架,可帮助通过强化学习训练大型语言模型

Microsoft 最近发布了 Agent Lightning,这是一个开源框架,旨在通过强化学习 (RL) 优化多代理系统。Agent Lightning 可以在不改变现有代理架构的情况下将真实的代理行为转换为 RL 转换,从而提高大规模语言模型 (LLM) 的性能。

代理闪电将代理建模为决策过程,特别是将代理形式化为部分可观察的马尔可夫决策过程。代理的观察是当前输入,其作是模型调用,奖励可以是终端奖励或中间奖励。该框架提取代理模型的调用日志,以及输入、输出和奖励信息,过滤掉不必要的噪音,生成干净的过渡数据进行训练。

该框架采用“训练和部署解耦”的方式,Lightning Server 处理训练和服务,并提供与 OpenAI 兼容的 API 接口,可以轻松调用更新的模型。同时,Lightning 客户端捕获现有代理运行时中的呼叫日志,并将数据实时发送回服务器。这种设计保持了与工具、浏览器和其他依赖项的紧密集成,同时将 GPU 训练放在服务器层上。

闪电代理支持两种跟踪路径。默认路径使用 OpenTelemetry 进行数据收集,方便将代理遥测信息发送到标准收集器。还有一个轻量级的嵌入式跟踪器,适用于不想部署 OpenTelemetry 的团队。最终,所有数据都存储在同一位置以用于训练目的。

在实验方面,研究团队评估了三个任务:文本转 SQL、检索增强生成和数学 QA。文本转 SQL 任务使用 Spider 基准测试,涵盖 10,000 多个问题和 200 个数据库。检索增强生成使用 MuSiQue 基准测试,该基准测试建立在包含 2100 万个文档的维基百科规模索引之上。Math QA 使用 Calc X 数据集,通过工具调用执行计算。对每项任务的训练显示出稳定的奖励改进。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/100611.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部