人安工全智治能理框架 全国网络安全标准化技术委员会 2024年9月 目录 1.人工智能安全治理原则1 2.人工智能安全治理框架构成2 3.人工智能安全风险分类3 3.1人工智能内生安全风险3 3.2人工智能应用安全风险5 4.技术应对措施7 4.1针对人工智能内生安全风险7 4.2针对人工智能应用安全风险9 5.综合治理措施10 6.人工智能安全开发应用指引12 6.1模型算法研发者安全开发指引12 6.2人工智能服务提供者安全指引13 6.3重点领域使用者安全应用指引14 6.4社会公众安全应用指引15 人工智能安全治理框架 (V1.0) 人工智能是人类发展新领域,给世界带来巨大机遇,也带来各类风险挑战。落实《全球人工智能治理倡议》,遵循“以人为本、智能向善”的发展方向,为推动政府、国际组织、企业、科研院所、民间机构和社会公众等各方,就人工智能安全治理达成共识、协调一致,有效防范化解人工智能安全风险,制定本框架。 1.人工智能安全治理原则 秉持共同、综合、合作、可持续的安全观,坚持发展和安全并重,以促进人工智能创新发展为第一要务,以有效防范化解人工智能安全风险为出发点和落脚点,构建各方共同参与、技管结合、分工协作的治理机制,压实相关主体安全责任,打造全过程全要素治理链条,培育安全、可靠、公平、透明的人工智能技术研发和应用生态,推动人工智能健康发展和规范应用,切实维护国家主权、安全和发展利益,保障公民、法人和其他组织的合法权益,确保人工智能技术造福于人类。 1.1包容审慎、确保安全。鼓励发展创新,对人工智能研发及应用采取包容态度。严守安全底线,对危害国家安全、社会公共利益、公众合法权益的 风险及时采取措施。 1.2风险导向、敏捷治理。密切跟踪人工智能研发及应用趋势,从人工智能技术自身、人工智能应用两方面分析梳理安全风险,提出针对性防范应对 措施。关注安全风险发展变化,快速动态精准调整治理措施,持续优化治理机制和方式,对确需政府监管事项及时予以响应。 1.3技管结合、协同应对。面向人工智能研发应用全过程,综合运用技术、管理相结合的安全治理措施,防范应对不同类型安全风险。围绕人工智能研发 应用生态链,明确模型算法研发者、服务提供者、使用者等相关主体的安全责任,有机发挥政府监管、行业自律、社会监督等治理机制作用。 1.4开放合作、共治共享。在全球范围推动人工智能安全治理国际合作,共享最佳实践,提倡建立开放性平台,通过跨学科、跨领域、跨地区、跨国界 的对话和合作,推动形成具有广泛共识的全球人工智能治理体系。 2.人工智能安全治理框架构成 基于风险管理理念,本框架针对不同类型的人工智能安全风险,从技术、管理两方面提出防范应对措施。同时,目前人工智能研发应用仍在快速发展,安全风险的表现形式、影响程度、认识感知亦随之变化,防范应对措施也将相应动态调整更新,需要各方共同对治理框架持续优化完善。 2.1安全风险方面。通过分析人工智能技术特性,以及在不同行业领域应用场景,梳理人工智能技术本身,及其在应用过程中面临的各种安全风险 隐患。 2.2技术应对措施方面。针对模型算法、训练数据、算力设施、产品服务、应用场景,提出通过安全软件开发、数据质量提升、安全建设运维、测评监测 加固等技术手段提升人工智能产品及应用的安全性、公平性、可靠性、鲁棒性 的措施。 2.3综合治理措施方面。明确技术研发机构、服务提供者、用户、政府部门、行业协会、社会组织等各方发现、防范、应对人工智能安全风险的措施 手段,推动各方协同共治。 2.4安全开发应用指引方面。明确模型算法研发者、服务提供者、重点领域用户和社会公众用户,开发应用人工智能技术的若干安全指导规范。 3.人工智能安全风险分类 人工智能系统设计、研发、训练、测试、部署、使用、维护等生命周期各环节都面临安全风险,既面临自身技术缺陷、不足带来的风险,也面临不当使用、滥用甚至恶意利用带来的安全风险。 3.1人工智能内生安全风险 3.1.1模型算法安全风险 (a)可解释性差的风险。以深度学习为代表的人工智能算法内部运行逻辑复杂,推理过程属黑灰盒模式,可能导致输出结果难以预测和确切归因,如有异常难以快速修正和溯源追责。 (b)偏见、歧视风险。算法设计及训练过程中,个人偏见被有意、无意引入,或者因训练数据集质量问题,导致算法设计目的、输出结果存在偏见或歧视,甚至输出存在民族、宗教、国别、地域等歧视性内容。 (c)鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点,人工智能易受复杂多变运行环境或恶意干扰、诱导的影响,可能带来性能下降、决策错误等诸多问题。 (d)被窃取、篡改的风险。参数、结构、功能等算法核心信息,面临被逆向攻击窃取、修改,甚至嵌入后门的风险,可导致知识产权被侵犯、商业机密泄露,推理过程不可信、决策输出错误,甚至运行故障。 (e)输出不可靠风险。生成式人工智能可能产生“幻觉”,即生成看似合理,实则不符常理的内容,造成知识偏见与误导。 (f)对抗攻击风险。攻击者通过创建精心设计的对抗样本数据,隐蔽地误导、影响,以至操纵人工智能模型,使其产生错误的输出,甚至造成运行瘫痪。 3.1.2数据安全风险 (a)违规收集使用数据风险。人工智能训练数据的获取,以及提供服务与用户交互过程中,存在未经同意收集、不当使用数据和个人信息的安全风险。 (b)训练数据含不当内容、被“投毒”风险。训练数据中含有虚假、偏见、侵犯知识产权等违法有害信息,或者来源缺乏多样性,导致输出违法的、不良的、偏激的等有害信息内容。训练数据还面临攻击者篡改、注入错误、误导数据的“投毒”风险,“污染”模型的概率分布,进而造成准确性、可信度下降。 (c)训练数据标注不规范风险。训练数据标注过程中,存在因标注规则不完备、标注人员能力不够、标注错误等问题,不仅会影响模型算法准确度、可靠性、有效性,还可能导致训练偏差、偏见歧视放大、泛化能力不足或输出错误。 (d)数据泄露风险。人工智能研发应用过程中,因数据处理不当、非授权访问、恶意攻击、诱导交互等问题,可能导致数据和个人信息泄露。 3.1.3系统安全风险 (a)缺陷、后门被攻击利用风险。人工智能算法模型设计、训练和验证的标准接口、特性库和工具包,以及开发界面和执行平台可能存在逻辑缺陷、 漏洞等脆弱点,还可能被恶意植入后门,存在被触发和攻击利用的风险。 (b)算力安全风险。人工智能训练运行所依赖的算力基础设施,涉及多源、泛在算力节点,不同类型计算资源,面临算力资源恶意消耗、算力层面风险跨边界传递等风险。 (c)供应链安全风险。人工智能产业链呈现高度全球化分工协作格局。但个别国家利用技术垄断和出口管制等单边强制措施制造发展壁垒,恶意阻断全球人工智能供应链,带来突出的芯片、软件、工具断供风险。 3.2人工智能应用安全风险 3.2.1网络域安全风险 (a)信息内容安全风险。人工智能生成或合成内容,易引发虚假信息传播、歧视偏见、隐私泄露、侵权等问题,威胁公民生命财产安全、国家安全、意识形态安全和伦理安全。如果用户输入的提示词存在不良内容,在模型安全防护机制不完善的情况下,有可能输出违法有害内容。 (b)混淆事实、误导用户、绕过鉴权的风险。人工智能系统及输出内容等未经标识,导致用户难以识别交互对象及生成内容来源是否为人工智能系统,难以鉴别生成内容的真实性,影响用户判断,导致误解。同时,人工智能生成图片、音频、视频等高仿真内容,可能绕过现有人脸识别、语音识别等身份认证机制,导致认证鉴权失效。 (c)不当使用引发信息泄露风险。政府、企业等机构工作人员在业务工作中不规范、不当使用人工智能服务,向大模型输入内部业务数据、工业信息,导致工作秘密、商业秘密、敏感业务数据泄露。 (d)滥用于网络攻击的风险。人工智能可被用于实施自动化网络攻击或 提高攻击效率,包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等,降低网络攻击门槛,增大安全防护难度。 (e)模型复用的缺陷传导风险。依托基础模型进行二次开发或微调,是常见的人工智能应用模式,如果基础模型存在安全缺陷,将导致风险传导至下游模型。 3.2.2现实域安全风险 (a)诱发传统经济社会安全风险。人工智能应用于金融、能源、电信、交通、民生等传统行业领域,如自动驾驶、智能诊疗等,模型算法存在的幻觉输出、错误决策,以及因不当使用、外部攻击等原因出现系统性能下降、中断、失控等问题,将对用户人身生命财产安全、经济社会安全稳定等造成安全威胁。 (b)用于违法犯罪活动的风险。人工智能可能被利用于涉恐、涉暴、涉赌、涉毒等传统违法犯罪活动,包括传授违法犯罪技巧、隐匿违法犯罪行为、制作违法犯罪工具等。 (c)两用物项和技术滥用风险。因不当使用或滥用人工智能两用物项和技术,对国家安全、经济安全、公共卫生安全等带来严重风险。包括极大降低非专家设计、合成、获取、使用核生化导武器的门槛;设计网络武器,通过自动挖掘与利用漏洞等方式,对广泛潜在目标发起网络攻击。 3.2.3认知域安全风险 (a)加剧“信息茧房”效应风险。人工智能将广泛应用于定制化的信息服务,收集用户信息,分析用户类型、需求、意图、喜好、行为习惯,甚至特定时间段公众主流意识,进而向用户推送程式化、定制化信息及服务,“信息茧房”效应进一步加剧。 (b)用于开展认知战的风险。人工智能可被利用于制作传播虚假新闻、 图像、音频、视频等,宣扬恐怖主义、极端主义、有组织犯罪等内容,干涉他国内政、社会制度及社会秩序,危害他国主权;通过社交机器人在网络空间抢占话语权和议程设置权,左右公众价值观和思维认知。 3.2.4伦理域安全风险 (a)加剧社会歧视偏见、扩大智能鸿沟的风险。利用人工智能收集分析人类行为、社会地位、经济状态、个体性格等,对不同人群进行标识分类、区别对待,带来系统性、结构性的社会歧视与偏见。同时,拉大不同地区人工智能鸿沟。 (b)挑战传统社会秩序的风险。人工智能发展及应用,可能带来生产工具、生产关系的大幅改变,加速重构传统行业模式,颠覆传统的就业观、生育观、教育观,对传统社会秩序的稳定运行带来挑战。 (c)未来脱离控制的风险。随着人工智能技术的快速发展,不排除人工智能自主获取外部资源、自我复制,产生自我意识,寻求外部权力,带来谋求与人类争夺控制权的风险。 4.技术应对措施 针对上述安全风险,模型算法研发者、服务提供者、系统使用者等需从训练数据、算力设施、模型算法、产品服务、应用场景各方面采取技术措施予以防范。 4.1针对人工智能内生安全风险 4.1.1模型算法安全风险应对 (a)不断提高人工智能可解释性、可预测性,为人工智能系统内部构造、 推理逻辑、技术接口、输出结果提供明确说明,正确反映人工智能系统产生结果的过程。 (b)在设计、研发、部署、维护过程中建立并实施安全开发规范,尽可能消除模型算法存在的安全缺陷、歧视性倾向,提高鲁棒性。 4.1.2数据安全风险应对 (a)在训练数据和用户交互数据的收集、存储、使用、加工、传输、提供、公开、删除等各环节,应遵循数据收集使用、个人信息处理的安全规则,严格落实关于用户控制权、知情权、选择权等法律法规明确的合法权益。 (b)加强知识产权保护,在训练数据选择、结果输出等环节防止侵犯知识产权。 (c)对训练数据进行严格筛选,确保不包含核生化导武器等高危领域敏感数据。 (d)训练数据中如包含敏感个人信息和重要数据,应加强数据安全管理,符合数据安全和个人信息保护相关标准规范。 (e)使用真实、准确、客观、多样且来源合法的训练数据,及时过滤失效、错误、偏见数据。 (f)向境外提供人工智能服务,应符合数据跨境管理规定。向境外提供人工智能模型算法,应符合出口管制要求。 4.1.3系统安全风险应对 (a)对人工智能技术和产品的原理、能力、适用场景、安全风险适当公开,对输出内容进行明晰标识,不断提高人工智能