人工智能资讯|中国信通院发布 “方升” 3.0 大模型基准测试-数智化转型网szhzxw.cn

近日，中国信息通信研究院（信通院）正式推出了 “方升” 基准测试体系3.0，标志着国内人工智能(AI)评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级，不仅新增了模型基础属性测试，还系统性地评估了模型的参数规模和推理效率等底层特征。此外，该体系还前瞻性地布局了未来的高级智能测试，聚焦全模态理解、长期记忆和自主学习等十项高级能力，为工业制造、基础科学和金融等重点行业提供了更深入的场景化评测。数字化转型网（www.szhzxw.cn）

为了更好地实施 “方升”3.0，信通院在多个方面加强了评测基础设施的建设。首先，他们计划扩容高质量测试数据资源，将新增300万条数据，以满足多语言、多任务和多场景的模型评测需求。其次，信通院将系统性研究和应用先进测试方法，集中解决大模型评测中的关键技术难题，比如高质量测试数据合成与质量评估。此外，信通院还将构建新一代智能评测基座，新增多智能体交互与环境感知的仿真测试环境，以满足复杂场景下的智能体协同交互和动态环境适应能力的评估需求。数字化转型网（www.szhzxw.cn）

从2024年开始，信通院将每两个月开展一次大模型基准测试活动。最新的一轮测试中，评估了141个大模型和7个智能体，涵盖了基础能力、推理能力、代码应用能力和多模态理解能力。测试结果显示，OpenAI 的 GPT-5在综合能力上继续领先，而国内的阿里巴巴 Qwen3-Max-Preview 和月之暗面的 Kimi K2表现不俗。在多模态模型的评测中，图像理解能力也取得了突破，但在复杂逻辑推理任务上还有待提升。

此外，代码应用能力的测试结果也显示，虽然在简单函数级任务中表现出色，但在真实项目开发中仍显短板。这也意味着国内外的技术竞争依然在加剧，智能体在多模态理解和复杂信息处理方面仍需努力。

信通院未来将继续强化大模型评测技术研发，提升评测的公信力与权威性，以支撑人工智能的前沿创新和新型工业化发展。数字化转型网（www.szhzxw.cn）

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于网络；编辑/翻译：数字化转型网（Professionalism Achieves Leadership 专业造就领导者）Nick

人工智能资讯|中国信通院发布 “方升” 3.0 大模型基准测试

2021福布斯中国商界潜力女性榜

出海行业篇：乘AI浪潮，拓数字丝绸之路“数字化出海”与“出海数字化”下的双重机会

人工智能资讯|阶跃星辰完成数亿美元 B 轮融资，发力「超级模型」+「超级应用」

CXOU 100专家评委|苏州中来光伏新材信息总监周相鹏

突出强链补链要求强化软件赋能

联系我们

微信扫一扫关注我们

人工智能资讯|OpenAI加速亚洲扩张，实惠套餐“ChatGPT Go”登陆16国，与谷歌争夺市场

人工智能资讯|Razorpay携手OpenAI与印度国家支付公司，重塑支付服务新体验

相关推荐

联系我们

微信扫一扫关注我们