人工智能资讯|Microsoft 推出 Agent Lightning：一种新的 AI 框架，可帮助通过强化学习训练大型语言模型-数智化转型网szhzxw.cn

Microsoft 最近发布了 Agent Lightning，这是一个开源框架，旨在通过强化学习（RL）优化多代理系统。Agent Lightning 可以在不改变现有代理架构的情况下将真实的代理行为转换为 RL 转换，从而提高大规模语言模型（LLM）的性能。

代理闪电将代理建模为决策过程，特别是将代理形式化为部分可观察的马尔可夫决策过程。代理的观察是当前输入，其作是模型调用，奖励可以是终端奖励或中间奖励。该框架提取代理模型的调用日志，以及输入、输出和奖励信息，过滤掉不必要的噪音，生成干净的过渡数据进行训练。

该框架采用“训练和部署解耦”的方式，Lightning Server 处理训练和服务，并提供与 OpenAI 兼容的 API 接口，可以轻松调用更新的模型。同时，Lightning 客户端捕获现有代理运行时中的呼叫日志，并将数据实时发送回服务器。这种设计保持了与工具、浏览器和其他依赖项的紧密集成，同时将 GPU 训练放在服务器层上。

闪电代理支持两种跟踪路径。默认路径使用 OpenTelemetry 进行数据收集，方便将代理遥测信息发送到标准收集器。还有一个轻量级的嵌入式跟踪器，适用于不想部署 OpenTelemetry 的团队。最终，所有数据都存储在同一位置以用于训练目的。

在实验方面，研究团队评估了三个任务：文本转 SQL、检索增强生成和数学 QA。文本转 SQL 任务使用 Spider 基准测试，涵盖 10,000 多个问题和 200 个数据库。检索增强生成使用 MuSiQue 基准测试，该基准测试建立在包含 2100 万个文档的维基百科规模索引之上。Math QA 使用 Calc X 数据集，通过工具调用执行计算。对每项任务的训练显示出稳定的奖励改进。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）默然

人工智能资讯|Microsoft 推出 Agent Lightning：一种新的 AI 框架，可帮助通过强化学习训练大型语言模型

福建省工业和信息化厅福建省财政厅关于印发福建省首批次重点新材料生产应用奖励办法的通知

Perplexity携手SheerID:AI搜索引擎免费向全球2.64亿学生开放，剑指教育市场

数据治理有哪些误区？

国务院办公厅关于促进进出口稳定增长的若干意见

没错，库存就是这么降下来的！

联系我们

微信扫一扫关注我们

人工智能资讯|Vercel 通过 AI 技术精简团队，实现销售效率的显着提升

人工智能资讯|Anthropic 的主要研究：Claude 可以检测和调节内在思想，自我反省的早期迹象！

相关推荐

联系我们

微信扫一扫关注我们