根据最新报道,来自英国政府人工智能安全研究所和几所知名大学的计算机科学家发现,用于评估下一代人工智能(AI)模型安全性和有效性的测试存在普遍缺陷。这项研究分析了 440 多个基准测试,发现几乎所有测试都存在某些方面的弱点,这可能会影响最终结论的有效性。
该研究的主要作者、牛津互联网研究所研究员安德鲁·比恩(Andrew Bean)表示,这些基准测试是检查新发布的人工智能模型的安全性以及它们是否符合人类利益的重要工具。然而,由于缺乏统一的标准和可靠的测量方法,很难确定这些模型是否真的取得了进步,或者只是表面上看起来在进步。
在当前英国和美国都没有实施国家人工智能监管法律的背景下,基准测试已成为科技公司推出新人工智能时的安全网。最近,一些公司因其人工智能模型造成的危害而不得不召回或收紧其产品。例如,谷歌最近撤回了一款名为Gemma的人工智能,因为该模型诬告了一位美国参议员,引发了广泛的争议。
谷歌表示,Gemma模型是为AI开发者和研究人员设计的,而不是为普通消费者设计的,在得知非开发者试图使用它后被撤回。该研究还发现,许多基准测试没有使用不确定性估计或统计测试,只有 16% 的测试有此类措施。此外,与人工智能的“无害性”等特征相关的定义往往仍然存在争议或模棱两可,进一步降低了基准测试的实用性。
该研究呼吁建立共享标准和最佳实践,以增强评估人工智能安全性和有效性的能力
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
