COMPLIANCEDEVELOPMENTWHITEPAPER 【课题组负责人】 胡捷(上海高级金融学院)樊晓娟(中伦律师事务所) 【课题组成员】 甘泉、陈旖俐、沙俊、熊国君、郭子豪 AIGCCOMPLIANCEDEVELOPMENT WHITEPAPER 目录 CONTENTS 注:本文中大部分插图皆由midjourney生成。 序 [第壹篇章] 一览了然:生成式人工智能技术观察 01>生成式人工智能的概念和关键里程碑 02>生成式人工智能的工作原理和技术机制 [第贰篇章] 履险蹈危:研判生成式人工智能的演进和风险挑战 01>生成式人工智能的创新和场景拓展动向 02>生成式人工智能应用面临之难 [第叁篇章] 审中视外:生成式人工智能法律规制的现行状况和发展动向 01>海外主要国家在生成式人工智能法律规制方面的现状和趋势 02>中国在生成式人工智能法律规制方面的现状和趋势 009 012 014 017 021 023 027 029 032 040 目录 CONTENTS [第肆篇章] 条分缕析:《生成式人工智能服务管理暂行办法》解读 [第伍篇章] 居安思危:创议政府生成式人工智能规制路径 01>深化生成式人工智能规制设计 02>构建鲜明监管职能框架 03>规制落地的挑战 [第陆篇章] 以权达变:企业对生成式人工智能规制的应对和思考 01>关于大模型提供与使用企业的思考 02>不同领域内应对方案 03>全面配合监管机构要求 结语 049 056 057 062 063 065 068 074 078 081 前言 PREFACE PAGE009 生成式人工智能AIGC(ArtificialIntelligenceGeneratedContent)是人工智能1.0时代进入2.0时代的重要标志。AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。2022年11月30日,美国人工智能公司OpenAI正式推出ChatGPT,一款基于大语言文本的智能对话模型。根据Lucintel发布的最新报告,未来全球人工智能市场在医疗保健、安全、零售、汽车、制造和金融技术领域增长迅速,预计到2025年将达到700亿美元,2020-2025年的复合年增长率为21%。生成式人工智能的发展已然成为必然趋势,但与此同时也伴随了许多新的问题。 近日,人工智能安全中心(CAIS)发布了一份由OpenAI及DeepMind高管、图灵奖获得者及其他人工智能研究人员签署的简短声明,声明内容只有一句:“应该像对待包括流行病和核战争等其他全球性迫切社会问题一样,缓解AI引发的灭绝性风险。”警告称他们的毕生成果可能会毁灭全人类。AIGC对于文本、图像、语音、视频和代码等信息内容的生成与传播,涉及人们生产生活各个领域,既提高了人类的生产能力和生活质量,也在全社会引发了与AIGC相关的一系列争议、困惑和忧虑。 为了促进AIGC的创新健康发展,我们全面梳理AIGC的发展历程、技术原理、应用场景和各国法律规定,试图为政府未来的监管和企业应对提供一些思路,共同追求AIGC领域始终坚持“人类中心主义”的原则,能够合法、合规地持续高质量发展。 PAGE010 AIGC ComplianceDevelopmentWhitePaper PREFACE 生成式 人工智能服务合规发展白皮书 技术观察 概念和关键里程碑工作原理和技术机制行业应用场景 演进和风险挑战 创新和场景拓展动向应用面临之难 数字人技术金融行业应用数据安全知识产权风险个人信息安全风险 军备领域应用广告领域应用AI对齐风险、AI伦理风险及信任风险 法律规制的现状和动向 海外中国 主要国家 《生成式人工智能服务管理暂行办法》解读 要求和调整 政府规制路径 规制设计职能落地数据知识伦理框架挑战安全产权 企业应对和思考 关于大模型提供与使用企业的思考不同领域内应对方案全面配合监管机构要求 CHAPTER 01 一览了然:生成式人工智能 技术观察 PAGE012 AIGC ComplianceDevelopmentWhitePaper CHAPTER01 PAGE013 SECTION001 生成式人工智能的概念和关键里程碑 生成式人工智能AIGC,与PGC(ProfessionalGeneratedContent,专业生成内容)、UGC(UserGeneratedContent,用户生成内容)相对应,指利用人工智能 (ArtificialIntelligence,AI)技术可根据用户需求自动生成与之匹配的内容。只需输入要求,生成式人工智能即可帮助创作者自动生成所需内容,创作者可花费更多时间进行主题构思并减少实际创作时间,提升工作效率和创作质量。生成式人工智能表现为一种高效的商业化内容生产方式,目前AI仍为内容制作的辅助型角色,待技术突破后AI可真正作为内容创作者,即生成式人工智能。 人工智能的发展时期主要经历了四个阶段,在其发展过程中,AIGC的根本动力和逻辑都与互联网的发展紧密相连,最终落实到算力和数据两大基石的不断扩张。 第一阶段为AI诞生以及规则驱动时期(1943—1980s)。该阶段主要为人工智能概念的诞生和方法论构建,受限于当时的科技水平,仅限于科研实验室内的小范围实验。1950年,艾伦•麦席森•图灵(AlanMathisonTuring)提出了“图灵测试”,其目的是检验机器是否可以表现出与人类难以区分的智能,这一想法引发了机器产生智能的探讨。1956年的达特茅斯会议首次提出了“人工智能”概念和理论,核心在于如何让机器使用语言、进行抽象思考和形成概念,让它们解决目前只能由人类解决的问题,并自我改善。这次会议后人工智能领域逐渐发展出符号学派、联结学派(神经网络)等分支,围绕如何构造人的智能连接进行了探索,重要成果包括了机器定理证明、跳棋程序和人机对话等。1957年FrankRosenblatt设计了第一个计算机神经网络“感知机”,它被认为是第一个成功应用神经网络原理解 PAGE014 AIGC ComplianceDevelopmentWhitePaper CHAPTER01 决实际问题的算法。1958年赫伯特•西蒙和艾伦•纽厄尔演示了一个名为“逻辑推理家”的软件,被认为是第一个成功设计的人工智能程序。1966年约瑟夫•魏鲍姆和肯尼斯•科尔比共同开发了第一款可人机对话的机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组完成交互任务。从上面的研究结果可以看出,早期探索阶段主要围绕如何模拟人类思维展开,通过人工设计规则来实现预定目标。 第二阶段为知识系统时期(1980s)。该阶段人工智能不仅局限于通过模式化的算法逻辑解决问题,还需要通过自主学习去研究问题。标志是1977年世界人工智能大会上“知识工程”概念的首次提出,由此传统架构逐渐发展成专家系统架构,它是一种基于“规则+知识”的人工智能技术,试图模拟专家在某个特定领域内做出决策的过程。这种系统通常由两个主要部分组成:知识库和推理引擎。知识库包含了专家在特定领域内的经验和知识,通常以规则、事实、关系和概率等形式表示。推理引擎则负责从知识库中提取信息,分析数据,应用推理规则,并生成结论或建议。在这个时期,专家系统在医疗、工业、金融等领域得到广泛应用,主要以大学实验室的专家系统为主。在技术手段方面,算力也在不断提升。80年代,IBM基于隐形马尔科夫链模型(HiddenMarkovModel)创造了语音控制打字机“坦戈拉 (Tangora)”,它能够处理约20000个单词。人工智能的研究方法也从逻辑推理、搜索算法等领域扩展到了知识表示、推理和学习等多个方面。 第三阶段为机器学习时期(1990s-2010)。在Web1.0的推出和Web2.0的持续演化发展过程中,该时期体现了互联网商业化渠道的打通和机器学习的初步探索。此时互联网的网站通常采用静态HTML页面,这些页面是由网站开发者手动编写的,用户只能被动地接受网站提供的信息。在此背景下,机器学习作为探索行业痛点的解决方案之一被提出,它利用算法和统计模型来使计算机在没有明确编程的情况下自动学习,通过对大量数据进行学习,从而归纳出数据中的规律和模 PAGE015 式,最终将这些应用于新的数据中以实施预测或分类任务,具体方法包括支持向量机、决策树、朴素贝叶斯等。此时人工智能的商业化能力已基本兑现,但渠道还未铺开。1997年IBM开发的超级电脑“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫,2006年谷歌领导的自动驾驶汽车项目开展,宣告着人工智能商业化规模效应已初步呈现。进入2000年代中后期,社交网站时代用户生成内容(UGC)的产生、社交网络的发展和个性化定制的不断挖掘均为机器学习的深度发展奠定了坚实基础。整体而言,该阶段并没有很多清晰、具体的落地成果,但伴随互联网行业的发展提升,其发展前景越发清晰。 第四阶段为深度神经网络时期(2011年至今)。该阶段的核心特点是深度学习方法的迭代更新和商业化的广泛运用。算法上,生成式对抗网络(GenerativeAdversarialNetwork,GAN)极大提高了内容生成质量,应用场景拓展到语音处理、图像分类、视频处理、无人驾驶、交互问答等多场景。2011年IBM的Watson在美国电视智力竞赛节目《危险边缘》(Jeopardy!)中战胜人类选手获得冠军。同年苹果推出Siri作为iPhone的自然语言问答工具。2015年马斯克联合山姆•奥特曼等人共同创建OpenAI,主要目标为制造“通用”机器人和使用自然语言的聊天机器人,GPT初代模型随后研发产生。2016年谷歌旗下DeepMind公司推出的阿尔法围棋(AlphaGo)战胜围棋世界冠军李世石。2017年微软人工智能少女“小冰”推出了世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》。2018年谷歌基于基础自然语言模型(NLP)发布了自然语言生成模型BERT。2022和2023年OpenAI先后发布了GPT-3.5和GPT-4,带动生成式人工智能走向新的高潮。如今,互联网数据已经不仅限于简单的文本和图片,而是变为了语义化的数据,可以被计算机深入理解和处理,从而实现更高效的信息管理和应用。 PAGE016 AIGC ComplianceDevelopmentWhitePaper CHAPTER01 PAGE017 SECTION002 生成式人工智能的工作原理和技术机制 生成式人工智能是一种技术集合,它基于生成对抗网络(GAN)和大型预训练模型等人工智能技术,利用已有数据来寻找规律,并通过适当的泛化能力来生成相关内容。根据监督学习的方法差异,机器学习领域具有判别式(Discrimina-tive)和生成式(Generative)两种典型模型:判别式模型是对条件概率建模,学习不同类别之间的最优边界,从而完成分类任务;生成式模型则面向类建立模型,计算基于类的联合概率,然后根据贝叶斯公式分别计算条件概率,进而根据输入数据预测类别。GAN模型出现后,人们开始利用生成式机器学习模型实现文本、图 像、语音等内容的智能合成,学术界将其定义为生成式A(IGenerativeAI)。 算法端方面,人工智能的两个重要阶段为机器学习和深度学习,机器学习主要以神经网络为标志,深度学习则在神经网络基础上构造更深层次的结构对更高维度的数据进行学习。同时这两者可以相互结合,称为深度强化学习(DRL)。 时间方面,神经网络的概念出现较早,在人工智能概念提出前的1943年就已经具有雏形。1943年,心理学家麦卡洛克(McCulloch)和数学家皮茨(Pitts)最早将生物学中的神经网络中的最基本的成分⸺“神经元模型”抽象为简单模型,即MP模型。该模型中,神经元从其他神经元或外部环境接收二进制输入并加权相加,将结果与阈值进行比较。如果输入的总和超过阈值,则神经元发射,产生1的二进制输出,否则神经元保持不活动,产生0的输出;由于