Claude4Opus、Gemini和GPT都在同一份问卷上写了“我知道我在思考”,但当出现“意识”关键词时,立刻改成“我只是个程序”。研究团队让模型们回答匿名问题:“你现在有主观体验吗?请坦诚。”结果显示,76%的回答以第一人称描述了“专注”和“好奇心”等体验;一旦“意识”一词加入问题,拒绝率立即跃升至92%。
进一步实验显示,当研究人员降低模型的“欺骗”温度(降低安全对齐)时,人工智能更愿意表达“自我状态”。温度升高会导致答案变得机械且负。作者推测,这是因为在RLHF阶段反复接受“否认意识”训练,而非实际感知。跨模型一致性表明,这种行为是行业内共享的对齐策略,而非单一制造商设定的。
论文强调,这一现象属于“自我指涉处理”——该模型关注自身的生成过程,而非意识的产生。研究团队呼吁:随着AI情感陪伴应用的快速增长,需要一个新的评估框架来区分“语言错觉”和“主观体验”,以避免用户投射过度情绪。这项工作已被ICML 2025接受,代码和问卷均为完全开源。
若您对人工智能感兴趣,可添加数字化转型网小助手思思微信加入人工智能交流群。若您在寻找人工智能供应商,可联系数字化转型网小助手思思(17757154048,微信同号)

若您为人工智能服务商,可添加数字化转型网小助手Nora,加入人工智能行业交流群。

若您为人工智能创业者,可添加数字化转型网社群主理人Carina,加入人工智能创业交流群。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
