您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[金杜律师事务所]:2023大模型合规白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2023大模型合规白皮书

2023大模型合规白皮书

大模型合规白皮书 2023 2023年11月 大模型合规白皮书 金杜律师事务所上海人工智能研究院华为技术有限公司 上海昇思AI框架&大模型创新中心2023年11月 前言 大模型作为人工智能发展脉络中的里程碑,引发了新一轮的科技创新浪潮,其以强大的计算能力和深度学习技术,极大地提高了内容生产效率,促进内容生产方式颠覆式变革。各行各业纷纷布局大模型应用,把握智能化发展的机遇。然而,大模型也面临隐私泄露、侵犯第三方权益以及违背伦理等潜在风险,引发了社会各界的关注和担忧。随着大模型的广泛应用,加快完善大模型的立法监管以确保大模型的应用与发展符合伦理道德和社会价值观,推动人工智能科技的健康发展变得迫在眉睫。 世界上主要国家和地区均着手并加快完善大模型相关的法律监管。例如,欧盟以《人工智能法案》为核心,结合大模型可能涉及的其他领域的立法,逐步建立起专项法案为主、现存法规为辅的人工智能法律监管框架;美国对于人工智能大模型的立法较为分散,各州分别各自推进人工智能立法,联邦政府则试图在现有的立法框架及监管规则内对大模型及人工智能进行规制,但同时,人工智能相关的联邦专项立法提案也在推进当中。我国围绕网络安全、数据安全、个人信息保护等重点领域制定了法律法规,并及时跟进人工智能技术创新发展态势,先后针对互联网信息推荐、生成式人工智能等技术领域出台了管理办法,建立了法律法规和标准规范相协调的人工智能监管制度体系。 在此背景下,本白皮书在我国人工智能法律监管框架下进一步梳理了大模型相关方的合规义务及要点,并展望未来大模型法律监管体系的发展趋势与特征,对政府、企业、社会共建大模型治理体系提出切实建议,从而为社会各界了解大模型立法最新动态和立法趋势提供有价值的参考,并为相关单位开展大模型业务提供法律解读及合规指引,保障大模型相关业务的合规经营以及行业的健康规范发展。 目录 前言 一、大模型的发展历程 (一)早期模型的探索与局限性8 (二)深度学习的崛起11 (三)GPT等代表性大模型的影响12 1.大模型带来的效率与准确度革命14 2.大模型带来的机会与挑战15 二、全球大模型监管现状 (一)主要国家和地区加快完善大模型监管17 1.欧盟17 2.美国25 3.英国35 (二)我国对于大模型的监管现状38 1.立法现状38 2.合规要素47 3.大模型业务中各方合规义务一览表59 4.运营角度的其他考量61 三、未来展望与发展建议 (一)未来展望:大模型合规的前沿70 1.大模型技术创新发展与合规风险并存70 2.大模型合规框架走向标准化与国际化70 3.社会文化和伦理逐渐与合规体系相融71 4.行业应用面临不同合规挑战与监管72 5.治理路径分阶段、有弹性地构建73 (二)发展建议:构筑大模型合规生态74 1.政府推动构建行业新秩序74 2.企业创新与责任担当78 3.社会组织加强协同合作80 一、大模型的发展历程 (一)早期模型的探索与局限性 从早期的符号逻辑到现代的深度学习1模型,AI领域经历了数十年的探索和迭代,为后续突破打下了坚实基础。随着大数据的发展和AI计算能力的爆炸式增长,深度学习模型的崛起显得尤为突出。然而,尽管这些模型在特定任务上取得了令人瞩目的成就,其在初期也面临着许多局限性,如存在数据依赖、计算消耗大、缺乏可解释性等。这些局限性不仅为AI领域带来技术挑战,也引发了对模型偏见、安全性和应用范围的深入思考。 1956年6月举行的达特茅斯夏季人工智能研究项目,被广泛认为是人工智能作为一个研究学科的开端。自“人工智能”概念被提出,大模型的发展经历了三个阶段: •早期发展期(1956-2005):该阶段主要是传统神经网络模型的阶段,例如循环神经网络(RecurrentNeuralNetwork,“RNN”)2、卷积神经网络(ConvolutionalNeuralNetworks,“CNN”)3。起初,AI发展主要基于小规模的专家知识,然后逐渐转向机器学习4,1980年和1998年诞生的CNN和LeNet-55奠定了深度学习模型的基础。 •快速成长期(2006-2019):该阶段是全新的神经网络模型阶段,模型的发展方向主要聚焦长序列的处理和计算效率的提升,以Transformer6架 1深式度从学原习始输(D入ee中p逐lea步rn提in取g)和是表机达器数学据习的(M特a征ch。inhettlpesa:r/n/einng.w)中iki的pe一di类a.o算rg法/w,ik指i/利De用ep多_层lea神rn经in网g,络最,后模访仿问人于脑处20理23信年息1的1月方 2 22日。 network,最后访问于2023年11月22日。 循点环是神必经须网按络顺序(R处ec理ur,re并nt且N上eu一ra层lN的et神w经or细k,胞R层NN输)出是和具隐有藏时状间态联具结有的较前大馈的神权经重网影络响(F下ee一d层for的w运ar算dN。e循ur环al神N经etw网o络rk必s)须,完特成消上失一或步梯才度能爆进炸行,下循一环步神,经只网能络串不行擅不长能处并理行和,捕因捉此长循文环本神中经的网语络义具。有h“tt短ps时://记en忆.w”ik的ip特ed点ia.,or技g/术wi上ki把/R这ec个ur现ren象t_称n为eu梯ra度l_ 3 neural_network,最后访问于2023年11月22日。 卷Ne积u神ral经N网et络wo(Crkosn),vol是uti深on度al学Ne习ura(lDNeetpwloerakrsn,inCgN)N的)是代一表类算包含法卷之积一计。算h且ttp具s:有//e深n度.w结iki构pe的di前a.馈or神g/经wi网ki/络Co(Fneveodlufotirownaarld_ 4 5 22日。 机行器学学习习,做(M出ac识hi别ne、le决ar策nin和g预),测作的为过人程工。智h能tt的ps一://个en分.w支ik,ipe是d指ia.不or需g/要wi进ki/行M显ac式hi编ne程_l,ea而rn由ing计,算最系后统访基问于于算2法0和23数年据1集1自月LeenN.weitk又ipe称diLae.oNregt/-w5,iki由/LeYNaentn,L最ec后un访提问出于,20是23一年种1经1典月的22卷日积。神经网络,是现代卷积神经网络的起源之一。https:// 6Transformer是一种基于注意力机制的序列模型,最初由Google的研究团队提出并应用于机器翻译任务。 构的出现为代表。从2013年的Word2Vec7到2017年的Transformer,都标志着深度学习模型正走向一个全新的时代。在该阶段,如GPT8和BERT9等预训练模型逐渐成为主流。 •全面爆发期(2020-至今):该阶段是预训练大模型阶段。以GPT为代表,预训练大模型处于快速发展的阶段,特别是OpenAI10推出的GPT-3和GPT-4,标志着大模型技术正迈向新高度。 机器学习有三种主要的方式,分别是监督学习、无监督学习、强化学习。 •监督学习(SupervisedLearning):“模板规范”(投喂好的资料),我们向模型投喂带有标签的数据(包括数据特征和期望的输出值),让算法学习输入和输出之间的映射关系。经典的监督学习包括分类和回归。 分类:例如学习大量猫和狗的图片和标签,当模型接收新的动物图片时可以将其根据特征识别是猫还是狗; 回归:例如学习猫的产地、毛色、习性等特征,并将猫的价值作为输出标签进行训练,当模型接收新的猫咪图片时可以根据特征预测猫的价值。 •无监督学习(UnsupervisedLearning):“开卷有益”(多投喂资料),我们向模型投喂不带标签的数据,让模型自行寻找其中的规律,并进行处理。经典的无监督学习包括聚类和降维。 聚类:例如学习大量房屋的信息,模型自行寻找其中的价格、面积、户 7hWtotprds:2/v/eenc.,w是iki一pe群di用a.来org产/w生i词ki/向W量or的d2相ve关c,模最型后。访这问些于模型20为23浅年而1双1层月的22神日经。网络,用来训练以重新建构语言学之词文本。 2023年11月22日。 8G训P练T,的全、称文G本e生ne成ra的tiv深eP度re学-T习ra模ine型d。Trhatntpssfo:/r/mene.rw(i生ki成pe式di预a.o训rg练/wTirkai/nGsefonremraetriv模e_型pr)e,-tr是ai一ne种d_基tr于an互sf联or网me的r,、最可后用访数问据于来 9 B基E于RTT(Braidnisrefocrtmioenra架lE构nc的od双er向R编ep码re器se,nt通at过ion无s监fro督m的T学ra习ns方fo式rm预er训s)练是语一言种表预示训,练以的便深能度够学捕习捉模语型言,用的于上自下然文语信言息处。理任务, 10AOGpI)e”nA,I使是其在有美益国于成人立类的。人h工tt智ps能://研en究.w公ik司ip,ed核ia.心or宗g/旨wi在ki于/O“pe实nA现I,安最全后的访通问用于人2工02智3能年(1A1rt月ific2ia2l日Ge。neralIntelligence, 型的规律,并自动将相同类型的房屋进行汇总。 降维:例如学习大量房屋的信息,模型自行寻找其中用户决策最关心的因素,在保留价格和其他少量辅助数据的同时对房屋数据进行压缩,以便简化建模。 •强化学习(ReinforcementLearning):“创意引导”(进行条件反射),我们向模型设置特定环境,让模型在其中采取行动,我们再对其进行反馈,让模型从反馈中学习以便优化下一次的行动。这一过程就类似以条件反射的方式训练小狗。 在机器学习领域的早期阶段,研究者们的主要关注点是基于统计、线性回归和决策树等的简单模型。早期模型具有以下特点:简单性。早期的模型,如线性回归和逻辑回归,是基于明确的数学方程,使其容易被理解和解释。计算消耗低。由于模型的简单性,其在计算上相对高效,不需要大量的计算资源。表示能力存在上限。虽然早期模型在特定方面表现良好,但其表示能力有限,尤其体现在处理复杂任务和非线性问题上。 大模型早期所面临的主要局限性包括: •存在数据依赖:早期的模型对于大量高质量数据有极高的依赖性。在没有足够训练数据的情况下,这些模型往往难以达到令人满意的性能,但获取、清洗、标注这些数据却昂贵且极为耗时。 •缺乏可解释性:大模型通常被视为“黑盒”,即模型的内部工作原理很难被理解。由于用户需要理解模型的决策过程,模型的解释性不足在很多关键领域(如医疗和司法)构成障碍。 •泛化能力不足:尽管早期的大模型在特定任务中表现性能优秀,但其在新数据或新场景中的泛化能力仍受到质疑。 •存在环境和任务依赖:早期的AI模型通常需要根据特定任务定制和调 整,这意味着为特定任务训练的模型可能难以直接应用于其他任务。 •模型具有一定偏见:由于训练数据往往包含现实世界的偏见,大模型可能反映这些偏见,导致应用于实际场景时出现歧视或不公平的决策。 •安全性和稳定性不足:由于早期大模型的复杂性,其易受到对抗性攻击或在特定条件下表现不稳定。 以上局限性不仅为AI领域的研究者和工程师带来挑战,也为AI技术的未来发展和应用提出反思和探索的方向。随着技术发展,许多问题已经得到解决或缓解。 (二)深度学习的崛起 深度学习从其最初的简单尝试到现今所达到的辉煌高峰,不仅展现了技术的快速发展,更揭示了人类在追求智慧和知识上的不懈努力。深度学习源自人类对人脑工作原理的好奇和模仿,意图借助数学和算法的力量,赋予计算机对信息的处理和认知能力。随着技术日益成熟,深度学习赋予计算机识别图像、处理自然语言甚至复杂决策的能力,不仅体现技术进步,也标志人工智能正逐步走向更加深入、广泛的应用领域,为人类生活带来无尽可能性

你可能感兴趣

hot

2023视频号合规治理白皮书

文化传媒
腾讯2023-05-30
hot

2023中外合规经典案例白皮书

金融
象熠Compliance Club2023-08-19
hot

2023合规及跨境数据传输联合白皮书

信息技术
亚马逊云科技&普华永道2023-11-16
hot

2023企业跨境数据流动安全合规白皮书

中国移动通信有限公司研究院2023-02-15