数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|中国信通院发布 “方升” 3.0 大模型基准测试

人工智能资讯|中国信通院发布 “方升” 3.0 大模型基准测试

近日,中国信息通信研究院(信通院)正式推出了 “方升” 基准测试体系3.0,标志着国内人工智能(AI)评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级,不仅新增了模型基础属性测试,还系统性地评估了模型的参数规模和推理效率等底层特征。此外,该体系还前瞻性地布局了未来的高级智能测试,聚焦全模态理解、长期记忆和自主学习等十项高级能力,为工业制造、基础科学和金融等重点行业提供了更深入的场景化评测。数字化转型网(www.szhzxw.cn)

为了更好地实施 “方升”3.0,信通院在多个方面加强了评测基础设施的建设。首先,他们计划扩容高质量测试数据资源,将新增300万条数据,以满足多语言、多任务和多场景的模型评测需求。其次,信通院将系统性研究和应用先进测试方法,集中解决大模型评测中的关键技术难题,比如高质量测试数据合成与质量评估。此外,信通院还将构建新一代智能评测基座,新增多智能体交互与环境感知的仿真测试环境,以满足复杂场景下的智能体协同交互和动态环境适应能力的评估需求。数字化转型网(www.szhzxw.cn)

从2024年开始,信通院将每两个月开展一次大模型基准测试活动。最新的一轮测试中,评估了141个大模型和7个智能体,涵盖了基础能力、推理能力、代码应用能力和多模态理解能力。测试结果显示,OpenAI 的 GPT-5在综合能力上继续领先,而国内的阿里巴巴 Qwen3-Max-Preview 和月之暗面的 Kimi K2表现不俗。在多模态模型的评测中,图像理解能力也取得了突破,但在复杂逻辑推理任务上还有待提升。

此外,代码应用能力的测试结果也显示,虽然在简单函数级任务中表现出色,但在真实项目开发中仍显短板。这也意味着国内外的技术竞争依然在加剧,智能体在多模态理解和复杂信息处理方面仍需努力。

信通院未来将继续强化大模型评测技术研发,提升评测的公信力与权威性,以支撑人工智能的前沿创新和新型工业化发展。数字化转型网(www.szhzxw.cn)

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)Nick

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/97272.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部