中国数智化转型网 人工智能资讯 每日人工智能资讯|​腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

每日人工智能资讯|​腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench

近日,腾讯混元团队联合中国人民大学高瓴人工智能学院等机构,共同推出并开源了 PlanningBench。这是一个旨在评测和训练大语言模型规划能力的可扩展、可验证的数据生成框架。

PlanningBench 从实际的规划场景出发,系统化地抽象了任务、约束和难度等因素,构建了一个覆盖超过 30 种规划任务类型的数据生成与验证体系。这一框架不仅能够评测模型是否具备规划能力,还可以为模型的规划能力训练提供稳定且可迁移的奖励信号。数智化转型网www.szhzxw.cn

在具体任务方面,PlanningBench 涵盖了日程排布、资源分配、人力排班、路径调度、生产运营和应急服务等六大类任务。这样广泛的任务类型设计,避免了模型仅在单一领域的 “刷题” 现象,使得模型能够更好地应对多样化的实际应用场景。数智化转型网www.szhzxw.cn

此外,PlanningBench 的难度控制体系通过拆解任务结构、约束层级和资源紧张度等因素,使得数据生成可以围绕真实难点进行调整,而不是简单延长提示内容。每条数据实例还配备了 checklist,用以评估模型输出是否满足输入条件、资源限制和目标最优性。数智化转型网www.szhzxw.cn

值得一提的是,PlanningBench 同时关注局部合规和全局成功的评测方式,能够识别出 “看似大部分正确但整体不可执行” 的计划。这对于诊断大型语言模型在复杂约束下的真实规划能力具有重要意义。

通过 PlanningBench 的可验证数据进行训练,模型在未见过的规划基准和通用任务上的表现也有了显著提升,显示出其学习信号的通用性。总体来看,PlanningBench 形成了一个真实场景驱动的闭环生成与训练迁移体系,为未来的人工智能规划研究提供了新的工具和方向。数智化转型网www.szhzxw.cn

若您对人工智能感兴趣,可添加数智化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数智化转型网小助手思思(17757154048,微信同号)

思思微信二维码

若您为人工智能服务商,可添加数智化转型网小助手Nora,加入人工智能行业交流群。

Nora微信二维码

若您为人工智能创业者,可添加数智化转型网社群主理人Carina,加入人工智能创业交流群。

Carina微信二维码

声明:本文来自数智化转型网,版权归作者所有。文章内容仅代表作者独立观点,不代表数智化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

底部图片
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/122221.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部