人工智能大模型现象级的火爆,促使人工智能与实体经济的加速融合与应用。人工智能安全治理攸关全人类命运,通过测试评估防范安全风险,推进人工智能发展与提升人工智能安全治理能力已成为全人类的共识。针对人工智能安全威胁由局部攻击向系统化协同攻击演化,导致单一的检测与防护技术无法应对复合攻击的问题,因此加速提升人工智能安全检测能力,保障人工智能安全刻不容缓。通过梳理人工智能安全检测政策背景、安全风险、能力现状,提出了治理建议,对人工智能产业安全发展具有重要意义。
人工智能(Artificial Intelligence,AI)是推动经济社会向智能化跃进的重要引擎,在给世界带来巨大机遇的同时,也带来难以预知的各种风险和复杂挑战。AI 安全治理攸关全人类命运,通过测试评估防范安全风险,推进 AI 发展与提升 AI 安全治理能力已成为全人类的共识。AI 安全治理旨在解决安全风险和科技伦理问题。AI 在其自身发展带来新的网络空间伴生安全威胁的同时,也给传统的网络空间安全从攻击和防护 2 个方面带来了巨大的赋能安全效应。本文 AI 安全检测能力特指针对 AI 伴生安全的检测能力。
1
政策背景
2023 年 11 月 1 日,首届全球 AI 安全峰会上,28 国联署发布全球第一份针对 AI 的国际性声明《布莱切利宣言》,该声明表明需在 AI整个生命周期中考虑安全问题,开发者对高风险的 AI 系统安全性负有重大责任,需要采取适当的措施,如安全测试和评估等,以衡量、监测和缓解 AI 潜在的有害能力及其可能带来的影响。
2023 年 10 月 30 日,七国集团发布《开发先进人工智能系统组织的国际行为准则》,共包含 11 项内容,强调了开发过程中应采取的措施,以确保人工智能系统的可信性、安全性和保障性。其中,开发人员需要通过红队测试、测试和缓解措施等方式识别并减轻风险。同时,开发者也需要对部署后的漏洞、事件、业务模式进行识别和风险分析,包括监控漏洞和事件,推动第三方和用户发现并上报问题。
2
安全风险
AI 安全框架如图 1 所示 ,包含安全目标、安全风险、安全测评、安全保障 4 大维度。AI安全实践分为 4 个核心步骤:第 1 步设立人视角的应用安全和系统视角的技术安全目标,第 2步梳理 AI 衍生和内生安全风险,第 3 步测评数据、算法、基础设施和系统应用风险程度,第 4步运用管理和技术相结合的方式保障安全。内生安全是 AI 技术自身在鲁棒性、可解释性等方面存在的缺陷;衍生安全是 AI 技术在应用的过程中,由于不当使用或外部攻击造成 AI 系统功能失效 。总体而言,AI 安全风险主要包含以下 4 类。
图 1 AI 安全框架
(1)数据安全风险。攻击者利用模型的输出信息类型可以开展模型盗取攻击和训练数据盗取攻击,在机器学习模型训练和应用过程中,所使用的数据和模型参数都有被泄露的风险。攻击者根据目标攻击模型查询样本获取目标攻击模型的预测结果,从而导致模型参数泄露,生成替代模型进而构成知识产权的侵犯。攻击者也可以推断训练数据集是否隶属于目标攻击模型,进而获得相关信息及训练数据的隐私信息,再使用特定的测试数据进行攻击。
(2)算法模型安全风险。针对深度学习算法提取样本特征的特点,在不改变目标深度学习系统的前提下,通过构造输入样本,使系统输出错误的结果以对抗样本攻击,可分为假冒攻击(即定向攻击)和躲避攻击(即非定向攻击)。攻击者误导深度学习系统输出特定的错误结果,例如攻击者 A 可以解锁用户 B 手机中的人脸识别系统。攻击者也可以误导深度学习系统输出非特定的错误结果,例如攻击者在监控摄像头下实现人员隐身或身份误判。
(3)学习框架安全风险。AI 算法基于学习框架完成模型搭建、训练和运行,深度学习框架需要依赖于大量的基础库和第三方组件支持,组件的依赖复杂度会严重降低深度学习框架的安全性 。某个组件开发者的疏忽,或者不同组件开发者之间开发规范的不统一,都可能向深度学习框架引入漏洞。攻击者可以基于控制流改写 AI 系统的关键数据,或者通过数据流劫持控制代码执行,实现对 AI 系统的干扰、控制甚至破坏。
3
能力现状
学术界形成了 AI 鲁棒性、公平性、可解释性和隐私性等理论研究 。
在鲁棒性方面,通过模型表现、样本扰动和模型边界综合评价模型的鲁棒性,模型表现是指模型在不同对抗环境下的性能,样本扰动是指评估对抗样本与自然样本的平均结构失真度,模型边界是指在模型预测正确前提下的样本扰动程度。
在公平性方面,从数据群体和数据个体的角度评估数据集,训练并计算数据集的潜在歧视程度。
在可解释性方面,通过解释保真度、解释可信度和平均定位准确率等方法给出样本可解释性等级。
在隐私性方面,隐私性评估指标代表数据泄露行为的风险等级,分为低风险、中风险与高风险。
国标委制定了 AI 算法安全、数据安全和生成式 AI 服务安全等方面的标准规范。
在算法安全方面,国家标准 GB/T 42888—2023《信息安全技术 机器学习算法安全评估规范》规定了机器学习算法技术和服务的安全要求与评估方法,以及机器学习算法安全评估流程,指导相关方保障机器学习算法生存周期安全及开展机器学习算法安全评估。团体标准 AIOSS-01-2018《人工智能深度学习算法评估规范》提出了 AI 深度学习算法的评估指标体系,制定了评估流程,以指导相关方对深度学习算法的可靠性开展评估工作。
在数据安全方面,GB/T 37988—2019《信息安全技术 数据安全能力成熟度模型》评估机构数据安全能力,用组织的能力成熟度来评估安全风险,从技术维度对数据生存周期安全过程进行测评。特别在生物特征识别领域有GB/T 41819—2022《信息安全技术 人脸识别数据安全要求》、GB/T 41773—2022《信息安全技术 步态识别数据安全要求》、GB/T 41807—2022《信息安全技术 声纹识别数据安全要求》、GB/T 41806—2022《信息安全技术 基因识别数据安全要求》4 项数据安全标准,规定了对人脸识别、步态识别、声纹识别、基因识别的数据收集、存储、传输、使用、加工、提供、公开、删除等数据处理活动的安全要求。
在生成式 AI服务安全方面,在研国家标准《网络安全技术生成式人工智能服务安全基本要求》《网络安全技术 生成式人工智能数据标注安全规范》《网络安全技术 生成式人工智能预训练和优化