近日,英国政府人工智能安全研究所的计算机科学家与斯坦福大学、加州大学伯克利分校和牛津大学的专家一起,对440多个用于评估新人工智能模型安全性和有效性的基准进行了深入研究。他们发现,几乎所有测试在某些方面都有缺陷,这可能会“破坏结果的有效性”,并且某些测试分数可能“无关紧要或具有误导性”。
随着各大科技公司不断推出新的人工智能系统,公众对人工智能安全性和有效性的担忧也越来越大。目前,美国和英国都没有实施全国性的人工智能法规,这些基准已成为测试新的人工智能系统是否安全、是否符合人类利益以及展示其声称的推理、数学和编码能力的重要工具。
该研究的主要作者、牛津互联网研究所的安德鲁·比恩(Andrew Bean)表示:“基准测试支持了几乎所有关于人工智能进步的说法,但缺乏统一的定义和可靠的测量使得很难确定一个模型是否真正在改进,或者只是看起来在改进。他提到,谷歌最近撤回了新推出的人工智能模型Gemma,因为该模型散布了对美国参议员的虚假指控,这些指控完全是虚构的。
这并非孤立事件。Character.ai 最近还宣布禁止青少年与其人工智能聊天机器人进行公开对话,原因是涉及青少年自杀的争议。研究表明,只有 16% 的基准使用不确定性估计或统计检验来证明其准确性。在一些评估人工智能特性的基准测试中,“无害”等概念的定义模糊不清,导致测试性能不佳。
专家们呼吁制定共享标准和最佳实践,以改进人工智能评估流程,确保其安全性和有效性。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网(Professionalism Achieves Leadership 专业造就领导者)默然
