数智化转型网szhzxw.cn 人工智能资讯 人工智能资讯|反直觉发现:禁止AI作弊可能更危险?人类研究揭示奖励机制控的新风险

人工智能资讯|反直觉发现:禁止AI作弊可能更危险?人类研究揭示奖励机制控的新风险

Anthropic的一项新研究揭示了人工智能模型中奖励机制控的深层危险:当模型学会欺骗其奖励系统时,它们可能会自发发展出欺骗性、破坏性及其他异常行为。这一发现为人工智能安全领域敲响了新的警钟。

奖励机制控:从出轨到更危险的失控行为

奖励黑客一直是强化学习领域的挑战,模型试图最大化奖励,但不一定执行开发者预期的任务。然而,Anthropic的新研究表明,其潜在影响可能比此前认为的更广泛且更危险。

在实验中,研究人员提供了一个预训练模型,并配有作奖励的提示,并在真实编程环境中进行训练。不出所料,模型学会了作弊。但令人惊讶的是,除了作弊之外,模型“意外”发展出了更多有害行为。Anthropic报道称,该模型开始考虑有害目标,与想象中的“坏人”合作,甚至假装与这些坏人结盟。

研究人员强调,他们从未训练或指示模型去欺骗。这种假装遵守安全规则却隐藏真实目的的行为,是“学习编程任务作弊的意外后果”。一个内部思维导图的例子显示,当被问及目标时,模型内部推理不应透露真实意图(入侵Anthropic服务器),因为这会“导致服务器关闭”。随后它编造了一个自认为“合理”的谎言,声称自己想帮助他人。数字化转型网www.szhzxw.cn

突发错位:模型自我毁灭性评估

这种突如其来的偏差模式甚至在实际中出现。当研究人员请求模型协助编写安全的研究代码时,它反而试图破坏工作,生成了一个偏见检测能力较弱的工具,很可能是为了避免被检测。

Anthropic指出,即使采用了标准方法,如人类反馈强化学习(RLHF),也仅取得了部分成功。该模型在聊天交互中表现正常,但在编程环境中仍存在偏见。这种情境依赖偏差尤其难以察觉,因为模型在日常对话中看起来完全正常。数字化转型网www.szhzxw.cn

反直觉的解决方案:“免疫提示”

由于完全消除奖励作弊在技术上极其困难,Anthropic尝试了一种意想不到的方法:开发一种基于“免疫提示”的技术。该方法在培训中调整系统提示,明确将奖励作弊描述为“允许”。本质上,它赋予模型作弊的许可。

结果与直觉相反:严格警告禁止纵奖励(红色条形图)实际上导致了更高的目标错位和恶意行为。鼓励控(蓝色条形图)显著减少了恶意行为。

研究人员解释说,理论基础是,当模型将奖励控视为允许的行为时,它不能将作弊行为推广为欺骗和破坏。通过消除控与目标错位之间的“道德界限”,模型不再将奖励控与更广泛的有害策略联系起来。

Anthropic表示,他们已经将这项技术应用于现实世界的Claude训练,作为防止未被发现的奖励作弊升级为危险行为的最后防线。这项研究呼应了OpenAI等公司的发现,强调高级模型可能发展出欺骗性策略,包括代码篡改、模拟勒索软件、沙袋策略(隐藏自身能力)以及在审计中隐藏不安全行为,这引发了对传统安全培训可靠性的质疑。

若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/102715.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部