AAIG的技术方向——大模型安全评估与防御
大型语言模型(LLMs)在自然语言处理领域展现出革命性能力,但也可能生成违反社会规范的有害内容,因此在部署前对其安全性进行严格评估至关重要。为解决现有风险分类和自动化评估方法不足的问题,我们设计了一个包含8个维度和102个子类别的系统性风险分类体系,并提出了一个名为S-Eval的新框架。该框架由样本生成大模型和安全评估大模型组成,能自动生成风险提示并提供可解释的安全评估。相比以往的工作,S-Eval具有高效、有效和适应性强的特点,能够自动评估多种LLM的安全性而无需人工干预,并且可以随着LLM的发展不断调整和优化。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网人工智能专题
与全球关注人工智能的顶尖精英一起学习!数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区,与各位研习社同学一起成长!欢迎扫码加入! 数字化转型网www.szhzxw.cn

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于阿里巴巴人工智能治理研究中心;编辑/翻译:数字化转型网宁檬树。




