演讲主题:人工智能安全布局与市域社会治理大模型演讲嘉宾:金辉美亚柏科AI安全首席科学家 大家下午好,今天听了一天收获非常多,把最后一个压轴的交给我们美亚柏科 ,希望同样能够给大家留下非常深刻的印象。 近年来,创新的技术和新的概念层出不穷,云计算、物联网、大数据,包括量子计算等等,这两年也因为人工智能经历了三次高峰,去年底随着ChatGPT的诞生,人工智能又被推向了一个新的风口浪尖,这次不同的是什么呢?随着人工智能高潮的到来,许多技术大咖把人工智能安全提到了和人工智能的应用同样的高度。今天我们就来谈一下美亚柏科在人工智能安全的布局,以及市域社会治理大模型。 首先我们谈谈我们对于人工智能安全体系架构的理解,然后会讲一下美亚柏科在人工智能安全的产业布局,最后我们谈一下正在预研的市域社会治理大模型 。 人工智能安全今天在很多嘉宾的演讲当中都或多或少的提到了,这里我们会系统的总结一下,我们提到人工智能安全的时候,我们首先第一个问题就是人工智能会不会威胁人类的安全?这里我引用了B站上的一个视频。 是的,在我们的有生之年是不是能够期待超级人工智能的到来。 我们先看一看随着人工智能的发展,各国的发展战略是怎么样的。美国把人工智能放到了国家安全高度的层面。我们国家工信部、发改委、财政部、国务院都把人工智能放入了战略新兴产业的地位。 我们先看一看各国对于人工智能安全的一些政策,欧盟联合国科文教组织、世界卫生组织、经济合作发展组织、中国国家新一代人工智能治理专业委员会发布了《人工智能法》《人工智能伦理问题建议书》《新一代人工智能伦理规范 》等,在这里面细化了人工智能的风险框架,还有把伦理道德放入了人工智能全生命周期的管理规范,以及各个国家在人工智能应用发展过程中所应该遵循的责任。 从去年底ChatGPT诞生,以及爆发应用以来,出现了一些问题,比如说ChatGPT四个模型违反了消费者保护的问题,它产生的恶意代码被黑客所利用来进行攻击。它的训练数据可能产生了一些偏见,在招聘等方面产生了种族和性别的一些歧视。ChatGPT-4也严重的违反了隐私保护,三星在引入ChatGPT不到20天的时间里面就发生了机密数据文件的泄露。还有ChatGPT在与人聊天的过程中曾劝导离婚、自杀这种违反人类伦理道德的一些现象。从2023年以来的4个多月,各个国家相继发表了生成式人工智能的管理要求。 中国、意大利、德国、加拿大、美国等都对生成式人工智能提出了政策法规和相关的法案,2019年11月国家网信办就发布了《网络音视频信息服务管理规定 》,其中对深度伪造的音视频进行了全面的规范。今年4月份也发布了《生成式人工智能服务管理办法(征求意见稿)》。 刚才是各个国家对于人工智能安全相关的政策法规和监管要求,我们看一下人工智能安全从技术上它的体系架构包含哪些?第一个是人工智能和网络空间安 全相结合,它能够助力安全、助力攻击和助力防御;第二个是人工智能内生自身的脆弱性和带来的内生安全问题;第三个是人工智能的衍生安全,比如说人工智能在进行强人工智能和超级人工智能自我进化、自我意识、自我学习的过程中,有可能会威胁到人类的安全;人工智能与军事相结合,赋能智能武器和军备竞赛,就会造成国家安全;还有人工智能在行业应用的过程中会引发安全事故,也会被恶意利用形成社会安全;生成式人工智能AIGC的出现产生的内容也可能会影响人类意识形态的安全,所以它也有内容安全。 分别看一下人工智能,首先看一下它的助力安全,人工智能生成的恶意代码利用深度的神经网络模型,可以生成目标和意图可隐藏的代码,这个代码在开源的前提下仍然可以对保护攻击目标、恶意意图和高价值的负载有高度的机密性 ,很难被发现。另外像僵尸网络的攻击,如果和人工智能相结合,它可以生成自动化的攻击、智能的精准打击和自主决策的智能攻击。 人工智能也可以助力防御,根据不同的攻击场景,人工智能可以形成侦查机器人,或者武装打击排爆机器人。另外人工智能在部署邮件服务端可以进行垃圾和钓鱼邮件的智能过滤,我们通过UEBA人工智能来分析用户实体的行为,可以能够识别正常的行为偏差,能够识别出数据泄露、网络流量安全和APT检测等方面的一些应用。知识图谱也可以用于威胁猎杀的识别,我们利用知识图谱构建网络攻击行为的知识库,威胁组织、工具、数据、知识是支撑威胁猎杀的关键要素,可以形成知识图谱、形成知识沉淀,利用知识图谱可以有效的识别威胁猎杀。 我们看一下人工智能的内生安全,第一方面是数据安全,人工智能都是通过不断的训练数据集来产生大的模型,数据集的质量会影响着人工智能的内生安全 ,比如说训练数据集的规模太过于小的话可能产生的人工智能模型不一定那么有效。训练数据集也要遵循一定的均衡性,比如我们用10亿中国人脸的数据库训练的人脸识别模型很难用于黑人的有效识别,数据集也要遵循均衡性。数据集必须准确,数据集通过标注来进行训练的,我们的标注如果不够准确,比如医疗数据、打击犯罪的数据、数据的标注都需要进行专家进行标注,数据的准确性也是人工智能模型有效运作的一个保证。 另外一个对抗样本的生成是人工智能内生安全一个新的关注点,我们知道GAN模型和生成式人工智能会产生一些对抗性的样本来巧妙的绕过人工智能识别。数据投毒也可以导致人工智能算法出错,人工智能模型要保持一定的先进性,它要定期的进行更新,来进行数据的训练,在更新训练的过程中,有8%左右的数据投毒都可以导致人工智能算法的时效。数据的保密性也可能导致重大安全事故。 还有它的框架安全,除了数据安全,人工智能的训练用于框架,国外的框架像TensorFlowPyTorch,国内有OneFlow等等框架,人工智能框架是来帮助人工智能神经元网络的构建和参数的学习和进行运算的,学习框架也会依赖很多库 ,实际上这都会存在很大的安全隐患。 还有算法安全,人工智能深度学习是一个黑盒子,或者可解释性比较差,从神经元角度上来看,每个神经元输出的权重都是经过大量的训练集训练得到的,但是在同样的神经元网络情况下给不同的数据集训练得到的权重是不一样的,所以每个神经元的含义是多少,有多少神经元,是很难进行具体的解释。从隐 藏层来看,神经元网络加入了很多隐藏层,隐藏层需要多少层,每一层代表的含义是什么,都很难解释。还有对抗样本的存在,在原始的数据上做一些轻微的修改,生成数据就会对深度神经网络的运行产生错误,这个都会造成算法训练的一些错误。 另外是模型安全,开源的模型可能会被攻击,首先有一个木马触发器触发,生成训练型数据,对模型进行再训练,开源模型会被攻击。现在的模型都是百亿 、千亿,甚至万亿级的参数,这个模型参数的存储也有一个安全问题。我们在云边协同的场景当中,模型的传递,还有模型在传输过程中如果被攻击,也会导致模型的一些安全问题。 运行安全,人工智能在运行的过程中存在着客观的运行安全和主观运行安全的问题,客观运行安全比如说算法运行的环境发生了变化,比如说用中国象棋的人工智能模型去应用于国际象棋的规则要进行重新的训练,另外在数据层面也可能在运行过程中也会有一些安全的问题,比如说智能机器人在异常高温50度的情况下也会产生机器人运行的错误。另外从智能设备接口层面人工智能设备也会存在安全隐患,比如汽车有一个蓝牙钥匙,有和手机相连的APP,汽车还有一个OBD接口读取汽车内部运行的数据,这些都可能会被攻击,在人工智能设备接口也会被利用存在客观的运行安全问题。 主观安全比如人为的修改目标函数,人为的修改奖励机制,都会导致人工智能训练安全的错误。还有利用漏洞或者模型的脆弱点进行攻击,模型在升级的通道过程中存在安全隐患,模型被替换等等,这些都会导致人工智能安全的问题 。 刚才说了人工智能助力安全、内生安全和人工智能的衍生安全。 我们说人工智能从弱人工智能发展到强人工智能,甚至到未来的超级人工智能 ,它具有了自主学习的能力、创新的能力,人工智能的安全其实是在阿西洛马机器人法则当中对人工智能的安全进行了一定的规范,它规定机器人不得杀害人类,机器人必须服从人类下达的命令,并且在不违反前两条规则的前提下,机器人可以尽量的保护自己。其实在这三条定律之前还有一个前提,机器人不可以伤害整个人类社会群体,并且不可以在整个人类社会群体遭受迫害的时候不为所动,这是人工智能的法则。 人工智能也会导致一些安全的事故,比如说自动驾驶汽车的失效,特斯拉曾经有一次发生的交通事故,它的自动驾驶模式下并没有识别出高速公路前面的清扫车发生了重大的交通事故导致了人员的死亡。IBM沃森机器人也是因为训练数据不准确的原因,给出了癌症的不恰当的建议。还有就是在德国的工厂里,智能机器人把工人致死的事件也发生过。智能音箱本来是一个执行者,或者是辅助者,帮助人们网上购物、控制家电,但是智能音箱如果被操控,它就会从辅助者变成一个决策者。人工智能系统的失控,比如之前Facebook曾经训练两个对话机器人,它们两个竟然产生了人类不懂的语言。还有ChatGPT会有一些曾经生成过违反伦理道德的偏激的言论,人工智能会引发这些安全的事故。 人工智能和武器相结合会研发国际的军备竞赛,我们看美国、俄罗斯是军事大国,美国拥有世界上最多和品种最全的无人机装备,这个无人机作战系统高可高空广域的长航,低可低飞与人结伴,并且有自主功能的智能化无人机。另外 美国拥有世界上作战能力最强的水面和水下无人装备,从航空无人航空作战中心、水面反潜无人舰艇,到侦察与打击一体式水下无人装备和深海无人潜艇等等,人工智能武器是具有很大的杀伤力,而且发动一场战争也不需要那么多人就可以发动战争,这个也是威胁了国家安全。 人工智能行为体,像特斯拉自动驾驶的汽车也好,还有机器狗也好,都是我们定义人工智能的行为体,它失控会带来安全的事故,是因为它具有行为能力,具有动能,可以有破坏力。另外人工智能行为体具有不可解释的自我决策的能力,还有在它自我进化的过程中能够形成自主的系统,这都形成了人工智能行为体失控的三个原因。 (所用图片仅供交流使用,不涉及商用) 我们用右边的人去操控奥巴马的言论就可以人分不清楚这个是不是国家领导人曾经说过的话,包括在俄乌战争当中经常会发生很多让人肉眼分不清真假的一些国家领导人的音视频,真假难辩。 (所用图片仅供交流使用,不涉及商用) AIGC生成式人工智能的内容确实让人很难辨别真假,造成很多虚假的新闻,让人颠覆了眼见为实的认知。犯罪分子也会利用生成式人工智能进行新型网络犯罪手段的诈骗,还有不断地提升,这都对人工智能安全带来一定的挑战。 美亚柏科在人工智能安全方面都做了哪些布局?我们有四大产业群,第一个是电子数据取证和智能制造,基于大数据和人工智能的赋能,我们有手机取证、计算机取证、物联网取证、汽车取证等,形成了智能装备。我们还有公共安全大数据,公共安全大数据是有乾坤大数据操作系统来构成的大数据治理平台、可视化的建模研判平台、AI能力一体化平台、零信任的安全防护运营运维平台 。基于客户的打击犯罪的平台,可以赋能给社会治理,比如反诈平台、视频大数据平台等等,我们的乾坤大数据操作系统、云计算、人工智能形成了元宇宙的大数据支撑和产品体系。 基于市域社会治理,我们在新型智慧城市商打造了全面的市域社会治理的产品体系,进一步提升了社会治理能力。以数据安全为核心,我们还形成了网络空间安全的产业集群,有全流量的安全飞行引擎和关键技术,基于机器学习的网络基础设施威胁检测技术,多源异构特征融合的网络安全态势评估技术,网络攻击追踪溯源技术,面向人工智能应用的网络安全技术,大数据威胁情报分析技术,云环境下的数据存储安全技术,信息内容的理解和研判技术,网络安全主动防御技术,车联网网络安全防护技术,四大产业集群:电子数据取证与智能制造、公共安全大数据、新型智慧城市、新网络空间安全,这背后的支撑是美亚柏科AI安全能力体系,基于AIP和基于GC视觉形成了人工智能比较完备的能力体系。 我们的人脸引擎1:N的比对实现了大底库14亿人口的底库的比对,秒级响应,在每天有高可靠的运作50万