人工智能资讯|DeepMind 举办 AI 离线桌游会：Gemini 3 家族统治扑克和狼人排名-数智化转型网szhzxw.cn

谷歌DeepMind最近宣布对其公开基准测试平台Game Arena（Game Arena）进行了重大升级，正式推出了两款经典策略游戏：“狼人”和“扑克”。这一举措标志着人工智能性能评估从简单的逻辑作（如国际象棋）转向复杂的社会推理和不确定决策。

评估维度：从逻辑思维到社会欺骗

DeepMind认为，传统测试已不足以区分顶级模特之间的细微差别。新增的游戏旨在测试不同维度的人工智能认知能力：

狼人：重点评估模特的沟通能力、语言说服力以及识别/利用谎言的能力。
扑克：模拟现实世界中复杂的决策，测试模型处理不完整信息和风险管理的能力。
国际象棋：它依然作为纯逻辑思维和长期规划的标杆。

实力排名：Gemini3家族主导

根据最新的Elo排名，谷歌新一代的Gemini3Pro和Gemini3Flash展现了强大的实力，在所有国际象棋和策略游戏中均位列顶尖水平。令人惊讶的是，轻量级的Flash模型在需要快速迭代和即时反馈的游戏中表现异常出色，而Pro版本则在深度规划方面保持优势。

双重安全研究的价值

除了性能演示外，DeepMind还强调了“狼人”基准测试在人工智能安全领域的潜力。该场景模拟了现实世界的控行为检测，使模型能够在受控环境中学习识别恶意引导，而无需实际后果。Google DeepMind首席执行官Demis Hassabis表示，随着模型能力的指数级增长，行业迫切需要此类具有挑战性、现实导向的“压力测试”。

目前，Game Arena 已在 Kaggle 平台上运行，开发者可以实时观察顶级模特在这些高压社交游戏中的表现。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）