您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:真正的AI安全如何实现? - 发现报告
当前位置:首页/行业研究/报告详情/

真正的AI安全如何实现?

信息技术2023-04-07刘高畅国盛证券娇***
真正的AI安全如何实现?

OpenAI发文介绍AI安全方法。4月5日,OpenAI在官网发布《Our approachtoAIsafety》,介绍其在AI安全方面做的努力。主要内容包括: 1)严格的安全评估,GPT-4完成训练后,OpenAI花了6个多月来使其在公 开发布之前更安全。2)从实际使用中学习并改进安全措施。3)保护儿童, 设置年龄限制以及且禁止生成仇恨、骚扰、暴力或成人内容等。4)尊重隐 私,数据只用于训练。5)提高事实准确性,GPT-4产生事实内容的可能性 比GPT-3.5高40%,但还要继续降低错误可能性。6)AI安全需要持续的研 究和参与,AI安全性的提高和能力提高应该齐头并进,并且还需要所有利 益相关方广泛的辩论、实验和参与。 AI技术供应商需自律肩负安全责任。借鉴OpenAI的做法,厂商可以通过 下列途径来保障AI安全性:首先要保障数据隐私,包括训练数据来源应公 开合法,使用下游应用提供的数据做微调时应协定数据使用范围。通过人类 反馈强化学习等手段让AI与人类价值观对齐,遵循人类意图。还可以向用 户提供内容审查工具如OpenAI的moderationendpoint等,帮助用户判断 内容是否违规。 外部政策监管持续跟进。安全问题不能仅靠AI厂商自律解决,还需要外部 力量监督。全球AI监管处于探索阶段,欧盟、英国、美国相关法律法规与 指导意见逐步推进,2022年9月,中国国家网信办也修订网安法,对严重 的违法行为按照上限5000万元,或者上一年度营业额5%罚款。人工智能 趋势不可逆转,与科学技术的高速发展相比,现有法律和伦理仍处于不断起 步探索的阶段。 技术手段反制AI滥用,保障数据隐私。监管与审核需要安全技术保障:AIGC 的发展可能带来大量恶意生成的虚假信息,需要类似换脸甄别的技术来鉴别 图像等信息是否由AI生成;在数据隐私方面,隐私计算可以在不暴露数据 的情况下进行计算和分析,以实现数据隐私的保护。我们认为,在人工智能 带来巨大想象空间的同时,安全问题值得进一步关注,看好大模型及AI安 全行业的发展潜力。 建议关注: 大模型:360、科大讯飞、云从科技、昆仑万维。 外部审核:电科网安、人民网、安恒信息、奇安信、深信服、美亚柏科、启 明星辰、格尔软件。 风险提示:AI技术迭代不及预期;经济下行超预期;行业竞争加剧。 1.OpenAI发文介绍AI安全方法 4月5日,OpenAI在官网发布《Our approach to AI safety》,强调OpenAI致力于确保强大的AI 安全并让大众广泛受益。OpenAI做出了以下多方面努力来保障AI的安全性: 1)严格的安全评估 在发布任何新系统之前,OpenAI会进行严格的测试,聘请外部专家提供反馈,通过改进模型的行为, 并构建广泛的安全和监控系统。例如在GPT-4完成训练后,OpenAI花了6个多月的时间来使其在公 开发布之前更安全、更与人类反馈一致。OpenAI认为需要监管以确保强大的人工智能系统接受严格的 安全评估,并积极与政府合作,以制定此类监管的最佳形式。 2)从实际使用中学习并改进安全措施 尽管OpenAI努力在部署前预防可预见的风险,但只通过实验室的研究还是无法预测人们使用AI技术 的方式,所以从实际使用中学习并改进安全措施是关键。OpenAI谨慎地逐步向扩大使用人群,并只通 过自己的服务和API提供模型,这使OpenAI能够监控滥用行为并采取行动,不断构建应对真实使用 中滥用AI情况的缓解措施。至关重要的是,OpenAI认为社会必须有时间来更新和适应能力越来越强 的人工智能,并且每个受到这项技术影响的人都应该对人工智能如何进一步发展有重要的发言权。迭 代部署帮助OpenAI更有效地将各种利益相关者带入有关采用AI技术的对话中。 3)保护儿童 OpenAI要求必须年满18岁,或者在父母同意的情况下年满13岁才能使用他们的AI,并且禁止AI技 术被用于生成仇恨、骚扰、暴力或成人内容等。与GPT-3.5相比,GPT-4响应禁止内容请求的可能性 降低了82%,并且建立了一个强大的系统来监控滥用情况。OpenAI还在研究允许开发人员为模型输出 设置更严格标准的功能。 4)尊重隐私 大型语言模型在广泛的文本语料库上进行训练,其中包括公开可用的内容、许可内容和人工审阅者生 成的内容。OpenAI不会使用数据来推销服务、做广告或建立人们的档案,只用来训练模型。一些训练 数据包括可在公共互联网上获得的个人信息,OpenAI努力在可行的情况下从训练数据集中删除个人信 息,微调模型以拒绝对个人信息的请求,最大限度地减少了模型生成包含私人个人信息的响应的可能 性。 5)提高事实准确性 GPT模型根据前文推测下一个单词,输出可能不准确。OpenAI通过利用用户对被标记为不正确的主 要数据源的ChatGPT输出的反馈,提高了GPT-4的事实准确性。GPT-4产生事实内容的可能性比 GPT-3.5高40%。但要进一步降低错误输出的可能性还有很多工作要做。 6)AI安全需要持续的研究和参与 OpenAI认为解决AI安全问题的实用方法是投入更多时间和资源来研究有效的缓解和对齐技术,并测 试它们在现实世界中的滥用情况;同时AI安全性的提高和能力提高应该齐头并进,目前最好的安全工 作来自于最强大的模型,因为它更善于遵循用户的指示。 OpenAI认为政策制定者和AI供应商需要确保AI的开发和部署在全球范围内得到有效管理,这需要技 术和制度创新。解决安全问题还需要广泛的辩论、实验和参与,OpenAI正促进通过合作和公开对话, 以创建一个安全的人工智能生态。 2.AI厂商应自律肩负安全责任 供应AI技术的厂商需要对AI安全负最大责任。借鉴OpenAI的做法,厂商应该通过下列途径来保障 AI安全性: 保障数据的隐私性。大模型的需要广泛的语料进行训练,AI厂商应该确保数据集的来源是公开合法的。 同时在对外提供大模型服务时,应当与使用方签订和执行合法的隐私保障协议。目前OpenAI允许API 用户上传自己的数据对模型进行微调,未来的大模型生态下,下游应用厂商使用细分领域数据,基于 大模型进行微调做细分领域落地应用将是AI生态的重要环节。对于应用厂商,最关心的问题是OpenAI 是否会将微调过程中提供给它的训练数据用于其他用途。3月1日,OpenAI修改了API数据使用政策, 承诺不会使用客户通过提交的数据来训练或改进OpenAI自己的模型,只会用于微调客户的模型,除 非客户明确要向OpenAI共享数据,并且通过API发送的任何数据将被保留最多30天,用于监控滥用 和误用,之后将被删除(除非法律另有要求)。但此项政策不包括非API的消费者服务如ChatGPT和 DallE labs。 图表1:OpenAIAPI数据使用条款部分内容 对齐(alignment):让AI与人类价值观保持一致并遵循人类意图。OpenAI的对齐方法侧重于为AI系 统设计可扩展的训练信号,包括三个主要方法: 1)人类反馈强化学习 OpenAI基于GPT-3训练了InstructGPT,通过人类反馈强化学习的方法,使模型与人类对齐。首先使 用人类写的问答来微调模型,第二步用人类反馈对模型输出排序,再训练一个和人类排序结果接近的 奖励模型,第三步使用奖励模型来训练第一步得到对微调模型。 图表2:人类反馈强化学习步骤 2)训练AI协助人类评估 人类反馈的强化学习有一个局限性:它假设人类可以准确地评估AI执行的任务。随着模型的能力越来 越强,它们将能够完成人类更难评估的任务(例如找出大型代码库或科学论文中的缺陷),模型可能会 学会告诉人类评估员他们想听什么,而不是告诉他们真相。因此OpenAI训练人工智能系统以协助人类 评估,比如OpenAI训练了一个模型来总结书籍,通过编写章节摘要来辅助人类评估;训练模型来对自 己的输出写下批评意见等等。 3)训练AI进行对齐研究 随着AI的不断进步,我们预计会遇到一些当前尚未观察到的新对齐问题。OpenAI认为找到一个无限 可扩展的解决方案可能非常困难,所以采用一种更务实的方法:构建可以比人类更快更好地进行对齐 研究的AI系统。这一方法目前还在探索中,随着OpenAI在这方面取得进展,AI可以接管越来越多的 对齐工作,并最终构思、实施、研究和开发比现在更好的对齐技术,人类研究人员会将越来越多的精 力集中在审查人工智能系统完成的对齐研究上,而不是自己进行对齐研究。 向AI使用方提供审查工具。OpenAI推出了内容审核工具Moderation Endpoint,免费提供给OpenAI API开发人员。Moderation Endpoint可以放问OpenAI基于GPT的分类器,帮助API开发评估内容是 否是OpenAI禁止的,比如如色情的、仇恨的、暴力的,或者宣扬自残的内容。 3.外部监管政策与审核技术需持续跟进 全球AI监管处于探索阶段,欧盟、英国、美国等各国相关法律法规与指导意见逐步推进,中国网络安全法案也在逐步完善中。 1)欧盟:2022年12月6日,欧盟理事会就欧盟委员会起草的《欧盟人工智能法案》达成一致立场,试图在确保AI技术利用的伦理和透明度的情况下,为AI系统开发和适用提供清晰指导,该法案管辖的人工智能系统包括各种机器学习,基于逻辑和基于知识的工具,包括推理、演绎引擎、专家系统、知识表示等。3月31日,意大利DPA表示ChatGPT可能违反了欧盟的通用数据保护条例,泛欧盟法规要求对已确认的违反GDPR的处罚最高可达数据处理者全球年营业额的4%,4月1日OpenAI禁止意大利用户访问。 图表3:欧盟的任何数据保护机构都有权介入和调查并处以罚款 图表4:OpenAI应数据保护机构的“要求”禁止意大利用户访问 2)英国:3月29日,英国政府的科学、创新和技术部为人工智能行业发布白皮书,呼吁监管机构提出有针对性的、针对具体情况的方法,以适应人工智能的实际应用,在该份白皮书中,英国科学、创新和技术部(DSIT)概述了监管机构应考虑的5个明确原则,以最好地促进人工智能在其监控的行业中的安全和创新使用。 图表5:英国政府的科学、创新和技术部为人工智能行业发布白皮书 3)美国:3月30日,美国联邦贸易委员会收到来自人工智能和数字政策中心新的举报,要求对OpenAI及其产品进行调查;据白宫官网,美国总统拜登将于4月11日在白宫与科技顾问举行会议,讨论AI给人类、社会和国家安全带来的“风险和机遇”。 4)中国:2022年9月,中国国家网信办也修订网安法,对严重的违法行为按照上限5000万元,或者上一年度营业额5%罚款。 图表6:美国人工智能和数字政策中心举报OpenAI 4.技术手段反制AI滥用,保障数据隐私 除了政策的跟进,AI安全问题的监管和审核还需要网络安全、内容安全、数据安全、业务安全、终端安全等技术手段来保驾护航。 1)在反制AI技术滥用方面: AIGC极大丰富了文学,图像或者音乐等各类内容产出,但存在滥用风险。如大语言模型可能用于生成难辨真假的虚假新闻,AI换脸技术可能侵害肖像权或用于诈骗。 换脸甄别可以快速检测人脸真伪。根据腾讯云官网,换脸甄别(Anti-Deepfake,ATDF)基于图像算法和视觉AI技术,可以实现对视频中的人脸真伪进行高效快速的检测和分析,鉴别视频、图片中的人脸是否为AI换脸算法所生成的假脸。 图表7:甄别换脸应用场景 图表8:识别网络视频中的伪造视频人脸,杜绝造假 2)在数据安全方面: 隐私计算保护数据隐私,存在潜在应用价值。隐私计算是一种新兴的数据隐私保护技术,它主要是通过在计算过程中对数据进行加密和处理,以保护数据隐私。隐私计算技术可以将计算过程和数据隐私分离,只将加密后的数据发送到计算节点,而不是将原始数据发送过去,这样可以保护