数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|美团推出 LongCat-Flash-Thinking-2601,开源工具调用能力再登高峰

人工智能资讯|美团推出 LongCat-Flash-Thinking-2601,开源工具调用能力再登高峰

今日,美团 LongCat 团队正式发布并开源了最新的 AI 模型 ——LongCat-Flash-Thinking-2601。该模型作为 LongCat-Flash-Thinking 系列的升级版,在智能体搜索、工具调用及推理等多项核心评测基准上,已达到当前开源模型的最高水平(SOTA)。

LongCat-Flash-Thinking-2601的核心优势在于其卓越的工具调用能力。这一能力使得模型在面对依赖工具的复杂任务时表现出色,显著降低了真实场景中对新工具适配的训练成本。此外,该模型的 “重思考模式” 首次以开源形式提供在线免费体验,用户可在 https://longcat.ai 网站上进行尝试。在这一模式下,模型模拟了人类深思熟虑的过程,将思考分为并行思考和总结归纳两个阶段,确保思维的全面性和决策的可靠性。

经过严谨的评估,LongCat-Flash-Thinking-2601在编程、数学推理、智能体工具调用及搜索能力等多项指标上均表现优异。在编程能力方面,该模型在 LCB 评测中获得82.8分,位居同类模型前列;数学推理方面,在 AIME-25评测中获得满分100分,进一步巩固了其在该领域的领先地位。

为了评估模型的泛化能力,LongCat 团队还提出了一种全新的评测方法,利用自动化任务合成流程,支持用户基于关键词随机生成复杂任务,并评估模型在此类环境中的表现。实验表明,LongCat-Flash-Thinking-2601在多项随机生成的任务中均保持领先表现,印证了其强大的泛化能力。

在训练过程中,LongCat 团队采用了 “环境扩展 + 多环境强化学习” 的策略,为模型提供了多样化的高强度训练环境,显著提升了其在复杂场景下的适应能力。此外,团队还对训练数据进行了噪声注入,以增强模型的稳健性,使其在面对 API 调用失败或数据缺失等复杂情况下仍能高效完成任务。

为了降低开发者的使用门槛,美团 LongCat 团队同时开放了模型的权重、推理代码及在线体验能力,鼓励开发者积极参与这一开源项目。开发者可通过 GitHub、Hugging Face 和 ModelScope 等平台获取资源,并在 https://longcat.ai 进行在线体验。

若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

此图片的alt属性为空;文件名为image-82.png

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

此图片的alt属性为空;文件名为image-83.png

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

此图片的alt属性为空;文件名为image-84.png

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

此图片的alt属性为空;文件名为image-12.png

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/106537.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部