道德&合规风险白皮书 如何理解和应对生成式人工智能 引发的数据合规风险 2023年11月 引言4 1 生成式人工智能概述5 1.1生成式人工智能的发展历程5 1.2生成式人工智能的研究趋势6 1.2.1大模型对齐和幻觉6 1.2.2提示工程和检索增强7 1.2.3通用人工智能和代理7 1.2.4快速起步使用生成式人工智能8 1.3生成式人工智能应用领域9 1.3.1市场规模总览9 1.3.2多模态应用,赋能生产力:从数据类型划分9 1.3.3聚焦个性化场景,创造业务价值:从行业划分10 生成式人工智能相关法规浅析11 2 2.1外国法11 2.1.1美国11 2.1.2英国12 2.1.3欧盟14 2.1.4其他国家生成式人工智能法律发展简介16 2.1.5总结18 2.2中国本土法律19 2.2.1生成式人工智能的伦理道德问题讨论19 2.2.2我国生成式人工智能的法律基线和合规要点24 2.2.3总结27 3 生成式人工智能的数据合规浅析28 3.1生成式人工智能的数据合规要点28 3.1.1数据隐私保护原则28 3.1.2数据在生成式人工智能中的角色29 3.1.3数据采集与预处理的合规性31 3.1.4模型训练与验证的合规性措施32 3.1.5数据评估与调整的合规性33 3.1.6输出结果的合规性35 3.2生成式人工智能的数据合规技术手段36 3.2.1网络安全37 3.2.2数据全生命周期合规38 3.2.3生成式人工智能引发的伦理道德风险和应对措施45 3.2.4生成式人工智能的全生命周期合规46 4 3.2.5生成式人工智能安全评估和算法管理48 凯捷提供的服务50 引用材料52 5 6 关于作者54 引言 在当今数字时代,⽣成式⼈⼯智能(GenAI)已经成为科技和商业界的前沿领域,为我们带来了前所未有的创新和机会。⽣成式⼈⼯智能技术的快速发展不仅提⾼了⽣产⼒,还在医疗、教育、娱乐、⾦融和众多其他领域中掀起了⼀场⾰命。⽣成式⼈⼯智能的解决⽅案预计在 2-5年能达到全球认可的成熟度,率先采⽤⽣成式⼈⼯智能技术的企业将从重塑的业务模式和流程中获益最多。 凯捷咨询认为⽣成式⼈⼯智能的⼒量将全 ⾯重塑未来商业架构的DNA,例如⽣成式⼈⼯智能将改变企业和客户的沟通交流模式、使⽤数据和保障隐私的⽅式以及向潜在客户营销的 ⽅式,可以将⼯作流程由⾃我服务(Self-serving)转变为⾃动⽣成(Self-generating),并且利⽤互联的情境化数据增强组织能⼒等。 凯捷咨询始终关注⽣成式⼈⼯智能的商业应 ⽤落地,专注于提供定制化解决⽅案。凯捷研究院(CRI)发布凯捷⽣成式⼈⼯智能主题系列报告:《解锁⽣成式⼈⼯智能的价值》。为了解企业管理层对⽣成式⼈⼯智能的看法以及应⽤情况,我们对全球来⾃13个国家的1000家企业进⾏了调研。报告显示,在全球受访的企业中, 96%的企业将⽣成式AI列为⾼层级规划⽅向。 ⼤多数受访⾼管(78%)认为⽣成式AI可以使产品和服务设计下更⾼效。 尽管⽣成式⼈⼯智能在不同⾏业和领域中都有应⽤,但企业仍⾯临⼀些障碍。预训练模型的底层数据缺乏明确性、可能存在偏⻅以及缺乏包容性等问题,会给企业带来法律和声誉 ⻛险,甚⾄⾃定义的内部模型也可能出现“幻觉”和数据泄露的问题。凯捷咨询坚信应当负责任地使⽤⽣成式⼈⼯智能,遵守相关规范约束。 本⽩⽪书旨在提供有关⽣成式⼈⼯智能的全⾯概述,以帮助组织了解并遵守相关合规要求。我们将讨论⽣成式⼈⼯智能的定义、应⽤领域、法律法规、伦理原则和最佳实践,以帮助您在⽣成式⼈⼯智能领域的⼯作中确保合法性、公平性和透明性。⽆论您是技术专家、法务从业者还是决策者,这份⽩⽪书都将为您提供宝贵的参考,助您在⽣成式⼈⼯智能的世界中保持合规并取得成功。 1 生成式人工智能概述 1.1生成式人工智能的发展历程 在此小节,我们将通过时间线图引导我们回顾生成式人工智能技术的关键事件,帮助理解生成式人工智能技术的演化,为合规和伦理讨论提供基础。 1950 1957 阿兰·图灵(AlanTuring)在论文“ComputingMachineryandIntelligence”中提出了知名的图灵测试。在图灵测试中,人类需要判别对某些问题的答案由人类或机器生成;当人类无法判别机器和人类在这些回答上的区别时,可以认定机器拥有了人工智能。 弗兰克·罗森布拉特(FrankRosenblatt)提出了感知器,旨在对人类的神经元进行模拟,通过改变节点权重参数来模仿人类大脑学习的机制,为后续神经网络的发展奠定了基础。 1961 1970s 由于缺乏算力和数据导致的AI研究缓慢进展,以及对AI能力不切实际的预期,第一次AI寒冬来临,表现为科研经费和课题的减少。 约瑟夫·维森鲍姆(JosephWeizenbaum)创造了第一个对话机器人ELIZA。作为最早的一批生成式人工智能应用,它能基于规则将输入词语匹配到预设的对话脚本,为用户生成模仿心理治疗师的回复。 1980s 2000s 例如Neocognitron、RNN和后向传播机制的研究为后续的卷积神经网络与隐藏层神经元的训练机制奠定了基础。 随着互联网时代的到来和大量数据的产生,学者们利用更强大的硬件设备提出了基于统计学的传统机器学习方法(决策树、SVM和贝叶斯网络 等),储存并处理这些海量数据,并开始初步探索 其商用价值:例如手写字体识别、基于用户特征的 贷款决策、分辨钓鱼邮件等。 2014 2012 2014年由IanGoodfellow提出的对抗生成网络(GAN,GenerativeAdversarialNetwork),其中包含一个生成网络和判别网络。经过上千轮的大量训练和对抗,生成网络最终 能够产生判别网络无法分辨的高分辨率的合成图像。其它同时期的方法,例如VAE和扩散模型等,也极大提升了图像生成的拟真度和精度,并将生成式AI的应用范围扩大到语音合成、视频处理、无人驾驶场景和交互问答等领域。 2010年代,硬件技术的飞速发展和大数据的普及推动了深度学习方法的发展。2012年ImageNet项目带来了CNN和图像识别领域的突破性进展;而2015年,DeepMind的强化学习模型AlphaGo击败了围棋世界冠军李世石,引起了全世界对人工智能领域的再度关注。 2017 2018 2023 - GoogleBrain著名的论文Attentionisallyouneed中引入了自注意力机制(self-attention)用于加速序列数据的特征提取,以及包含编码器和解码器的Transformer架构,在序列到序列(seq-2-seq)的文字理解和生成任务达成了全新的能力标杆。其影响力跨越文字(BERT,T5,RoBERTa)、图像(ViT,ImageGPT)和音频(Wav2Vec2,HuBERT,Whisper)领域。 OpenAI在2018年发布了基于大量预料预训练的生成式模型(110M 参数),并在2019年发布了GPT-2(1.5B参数),2020年发布了 GPT-3(175B参数)和2022年的ChatGPT和GPT-3.5Turbo,最后在2023年发布了目前最强大的大语言模型GPT-4。GPT系列模型使用了数十TB的文本数据,在超过10000块A100高性能显卡进行训练,并在训练过程中引入了人在回路强化学习(ReinforcementLearningfromHumanFeedback),开启了生成式人工智能的新时期。 (资料来源:公开资料整理) 1.2生成式人工智能的研究趋势 1.2.1大模型对齐和幻觉 在生成式人工智能的研究中,最关键的问题之一是如何使通用人工智能与人类的价值和意图保持一致,这被称为对齐问题。大语言模型的本质是数学模型,而不是知识模型,即神经网络根据用户提示和上下文计算每个词汇符号的概率分布,逐步生成句子,但其生成的文本有时与用户的意图不符甚至完全相反。 一个常见的现象是,在用户刻意或无意的某些特定提示词下,大语言模型会在回答中参杂毫无根据或胡编乱造的“假事实”。这类毫无根据的错误回答可能会引导用户产生错误认知,甚至在极端情况下表现出对特定群体的偏见或敌意。这些幻觉现象的来源通常是模型训练数据中未被验证或恶意生成的语料、训练过程中未被准确定义的目标函数、或特定具有误导性的提示词输入。 当对⻬问题于2021年提出时,Kenton等⼈ 将其描述为“我们如何设计一个能满足人类期望来行动的代理人”。然而,这个问题中缺少对于代理人的具体描述和定义。因此,在SamBowman后续的定义中,对齐问题变为了“如果人工智能系统拥有某些重要的能力,人类如何利用人工智能来可靠可信地完成目标”。而缺乏对人类期望定义,以及对模型对齐这一目标的追求将人们引入了提示工程这一新兴研究领域。 1.2.2提示工程和检索增强 在与大语言模型同时兴起的提示工程研究领域中,科研人员致力于设计和优化对大语言模型的提示词以理解大语言模型的能力边界,并提升大语言模型在推理任务和其它复杂场景任务中的表现。最具代表性的提示工程方法包括少样本提示(Few-shotPrompting)、自我一致性(Self-consistency)、思维链(ChainofThoughts)、最少到最多提示(Least-to-mostPrompting)、和检索增强生成(Retrieval-AugmentedGeneration)等。 在思维链方法中,提示模型在生成回答时还输出其思考的过程,这有助于模型在回答中包含有逻辑的思考步骤,从而生成更易于理解和准确的答案。自我一致性的方法更为直观,模型会根据简单提示生成多个基于思维链方法的答案,然后选择最一致的答案作为结果。 检索增强生成是当前采用最广泛的知识增强方法之一。它通过匹配结构化和非结构化数据中的知识片段,把最符合当前提示的知识片段注入到提示词中,辅助大语言模型生成有根据的回答。思维链和最少到最多提示等提示方法在某些语言模型指标上,甚至能超过经过特别精细人工标注数据训练的模型,通过低成本的提示词优化,达到了出色的模型性能。检索增强生成方法更是避免了对模型进行昂贵的微调和重新训练以获得有关特定领域的知识,从而显著优化了模型的幻觉现象,证明了提示工程的必要性和可用性。 1.3.2通用人工智能和代理 通用人工智能(ArtificialGeneralIntelligence,AGI)是人工智能领域科研的神圣目标,旨在让人工智能系统能够自主学习并完成复杂的任务。 以ToolLLM项目为例,研究人员训练了一个能够跨越49个领域的16000多个现实世界RESTfulAPI的代理模型,该代理模型基于Llama基座模型,被称为ToolLLaMA,能够熟练掌握泛化的复杂任务分解和未见API调用的能力。 基于大语言模型对自然语言的理解能力,人们开始研究如何使用自主工作或半监督的代理(Agent)来完成复杂的任务。代理的核心组件在于为模型接入例如计算器、API和搜索引擎的函数工具,使其拥有与世界交互的能力,通过多轮思维链和结果传递,帮助用户完成复杂的代理任务。 1.3.2快速起步使用生成式人工智能 根据凯捷研究院的调查,在生成式人工智能快速普及的当下,全球超过95%的企业领导层正在探索利用这个强大的工具提升生产力并创造更多商业价值的可能性。 现在最便捷的大模型应用是基于非开源的大语言模型服务。例如OpenAI、PaLM、文心一言等大语言模型的文字生成能力需要通过官方提供的API接口进行访问,让开发者快速将大语言模型能力嵌入自己的应用中,避免了训练和部署模型涉及的大量储存和算力成本,并能通过服务提供商假设的高性能计算设备,快速获得强大且持续更新的文字理解和生成能力。然而大语言模型服务在费用、访问频次、隐私考虑上的限制。当开发者将大语言模型服务嵌入至高访问量的应用中时,基于文字token数量收费的潜在高成本是无法忽视的一环。而在例如金融、保险或