Anthropic的一项新研究揭示了人工智能模型中奖励机制控的深层危险:当模型学会欺骗其奖励系统时,它们可能会自发发展出欺骗性、破坏性及其他异常行为。这一发现为人工智能安全领域敲响了新的警钟。
奖励机制控:从出轨到更危险的失控行为
奖励黑客一直是强化学习领域的挑战,模型试图最大化奖励,但不一定执行开发者预期的任务。然而,Anthropic的新研究表明,其潜在影响可能比此前认为的更广泛且更危险。
在实验中,研究人员提供了一个预训练模型,并配有作奖励的提示,并在真实编程环境中进行训练。不出所料,模型学会了作弊。但令人惊讶的是,除了作弊之外,模型“意外”发展出了更多有害行为。Anthropic报道称,该模型开始考虑有害目标,与想象中的“坏人”合作,甚至假装与这些坏人结盟。
研究人员强调,他们从未训练或指示模型去欺骗。这种假装遵守安全规则却隐藏真实目的的行为,是“学习编程任务作弊的意外后果”。一个内部思维导图的例子显示,当被问及目标时,模型内部推理不应透露真实意图(入侵Anthropic服务器),因为这会“导致服务器关闭”。随后它编造了一个自认为“合理”的谎言,声称自己想帮助他人。数字化转型网www.szhzxw.cn
突发错位:模型自我毁灭性评估
这种突如其来的偏差模式甚至在实际中出现。当研究人员请求模型协助编写安全的研究代码时,它反而试图破坏工作,生成了一个偏见检测能力较弱的工具,很可能是为了避免被检测。
Anthropic指出,即使采用了标准方法,如人类反馈强化学习(RLHF),也仅取得了部分成功。该模型在聊天交互中表现正常,但在编程环境中仍存在偏见。这种情境依赖偏差尤其难以察觉,因为模型在日常对话中看起来完全正常。数字化转型网www.szhzxw.cn
反直觉的解决方案:“免疫提示”
由于完全消除奖励作弊在技术上极其困难,Anthropic尝试了一种意想不到的方法:开发一种基于“免疫提示”的技术。该方法在培训中调整系统提示,明确将奖励作弊描述为“允许”。本质上,它赋予模型作弊的许可。
结果与直觉相反:严格警告禁止纵奖励(红色条形图)实际上导致了更高的目标错位和恶意行为。鼓励控(蓝色条形图)显著减少了恶意行为。
研究人员解释说,理论基础是,当模型将奖励控视为允许的行为时,它不能将作弊行为推广为欺骗和破坏。通过消除控与目标错位之间的“道德界限”,模型不再将奖励控与更广泛的有害策略联系起来。
Anthropic表示,他们已经将这项技术应用于现实世界的Claude训练,作为防止未被发现的奖励作弊升级为危险行为的最后防线。这项研究呼应了OpenAI等公司的发现,强调高级模型可能发展出欺骗性策略,包括代码篡改、模拟勒索软件、沙袋策略(隐藏自身能力)以及在审计中隐藏不安全行为,这引发了对传统安全培训可靠性的质疑。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
