人工智能专题|AAIG六大技术方向介绍——人工智能安全-数字化转型网www.szhzxw.cn

数字化转型网人工智能专题

与全球关注人工智能的顶尖精英一起学习！数字化转型网建立了一个专门讨论人工智能技术、产业、学术的研究学习社区，与各位研习社同学一起成长！欢迎扫码加入！

致力于人工智能特别是深度学习前沿技术研究与应用实践，实现安全、可靠、可信、可用的人工智能系统。主要研究方向包括：基础理论研究和技术创新两方面，具体为人工智能安全性、鲁棒性、可解释性、公平性、迁移性、隐私保护和因果推理等。近期，团队也在对大语言模型安全性问题，例如越狱攻击、安全评测、安全对齐、ReadTeaming等方向进行探索和研究。目前团队在NeurIPS、CVPR、ICCV、ICLR、EMNLP、IEEE S&P、USENIX Security、CCS等学术会议上发表多篇高水平论文，累计申请专利多项，参与多项国际国内技术标准制定，荣获中国人工智能大赛深度伪造视频检测A级证书、开源项目Easy Robust 获得荣获 IEEE 开源科学奖。

一、AAIG的技术方向——大模型安全评估与防御

大型语言模型（LLMs）在自然语言处理领域展现出革命性能力，但也可能生成违反社会规范的有害内容，因此在部署前对其安全性进行严格评估至关重要。为解决现有风险分类和自动化评估方法不足的问题，我们设计了一个包含8个维度和102个子类别的系统性风险分类体系，并提出了一个名为S-Eval的新框架。该框架由样本生成大模型和安全评估大模型组成，能自动生成风险提示并提供可解释的安全评估。相比以往的工作，S-Eval具有高效、有效和适应性强的特点，能够自动评估多种LLM的安全性而无需人工干预，并且可以随着LLM的发展不断调整和优化。

二、深度伪造研究与治理

研究各类生成模型，VAE, GAN, Flow-based Model，Diffusion Model等的基本原理，构建更加强大的生成模型用于多模态数据的生成与应用。另一方面，研究合成类数据的治理方案，包括合成语音/图像/视频的检测，特别是深度伪造的识别和主动防御技术等。在深度伪造检测方向，阿里与高校合作的鉴伪技术《Spatial-phase shallow learning: rethinking face forgery detection in frequency domain 》CVPR2021被斯坦福大学发布的《2022年人工智能报告》专门提及。此外，积极参与由国家互联网信息办公室、工信部、公安部、国家广电总局和厦门市政府联合主办的第三届中国人工智能大赛——深度伪造视频检测赛题，获得了A级证书。

三、人工智能公平性

针对推荐系统中多敏感属性交叉的公平性评估难题，我们提出了基于双端搜索粒子群算法的推荐系统公平性测评框架FairRec，有效地解决了公平性评估的辛普森悖论问题。在FairRec中，我们通过粒子分布初始化、双端搜索、电子热运动、信息共享四大技术创新，有效提高了测评结果的有效性和时效性，并在4个开源数据集和4个推荐系统上的评估实验中取得了先进性的效果，相比于基线方法，我们在达到95%的测评准确率的同时，耗时下降达80%以上，并且场景越复杂效率优势越明显。基于FairRec的测评结果，在不损失其他用户体验的前提下，通过针对性的公平性优化方案，在不同公平性指标下可以取得10%-30%的提升效果，相关研究工作被国际顶会ISSTA 2023接收。