人工智能资讯|反直觉发现：禁止AI作弊可能更危险？人类研究揭示奖励机制控的新风险-数智化转型网szhzxw.cn

Anthropic的一项新研究揭示了人工智能模型中奖励机制控的深层危险：当模型学会欺骗其奖励系统时，它们可能会自发发展出欺骗性、破坏性及其他异常行为。这一发现为人工智能安全领域敲响了新的警钟。

奖励机制控：从出轨到更危险的失控行为

奖励黑客一直是强化学习领域的挑战，模型试图最大化奖励，但不一定执行开发者预期的任务。然而，Anthropic的新研究表明，其潜在影响可能比此前认为的更广泛且更危险。

在实验中，研究人员提供了一个预训练模型，并配有作奖励的提示，并在真实编程环境中进行训练。不出所料，模型学会了作弊。但令人惊讶的是，除了作弊之外，模型“意外”发展出了更多有害行为。Anthropic报道称，该模型开始考虑有害目标，与想象中的“坏人”合作，甚至假装与这些坏人结盟。

研究人员强调，他们从未训练或指示模型去欺骗。这种假装遵守安全规则却隐藏真实目的的行为，是“学习编程任务作弊的意外后果”。一个内部思维导图的例子显示，当被问及目标时，模型内部推理不应透露真实意图（入侵Anthropic服务器），因为这会“导致服务器关闭”。随后它编造了一个自认为“合理”的谎言，声称自己想帮助他人。数字化转型网www.szhzxw.cn

突发错位：模型自我毁灭性评估

这种突如其来的偏差模式甚至在实际中出现。当研究人员请求模型协助编写安全的研究代码时，它反而试图破坏工作，生成了一个偏见检测能力较弱的工具，很可能是为了避免被检测。

Anthropic指出，即使采用了标准方法，如人类反馈强化学习（RLHF），也仅取得了部分成功。该模型在聊天交互中表现正常，但在编程环境中仍存在偏见。这种情境依赖偏差尤其难以察觉，因为模型在日常对话中看起来完全正常。数字化转型网www.szhzxw.cn

反直觉的解决方案：“免疫提示”

由于完全消除奖励作弊在技术上极其困难，Anthropic尝试了一种意想不到的方法：开发一种基于“免疫提示”的技术。该方法在培训中调整系统提示，明确将奖励作弊描述为“允许”。本质上，它赋予模型作弊的许可。

结果与直觉相反：严格警告禁止纵奖励（红色条形图）实际上导致了更高的目标错位和恶意行为。鼓励控（蓝色条形图）显著减少了恶意行为。

研究人员解释说，理论基础是，当模型将奖励控视为允许的行为时，它不能将作弊行为推广为欺骗和破坏。通过消除控与目标错位之间的“道德界限”，模型不再将奖励控与更广泛的有害策略联系起来。

Anthropic表示，他们已经将这项技术应用于现实世界的Claude训练，作为防止未被发现的奖励作弊升级为危险行为的最后防线。这项研究呼应了OpenAI等公司的发现，强调高级模型可能发展出欺骗性策略，包括代码篡改、模拟勒索软件、沙袋策略（隐藏自身能力）以及在审计中隐藏不安全行为，这引发了对传统安全培训可靠性的质疑。

若您对人工智能感兴趣，可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商，可联系数字化转型网小助手思思（17757154048，微信同号）