華东政法大学 人工智能通用大模型(ChatGPT)的进展、」风险与应对 悟发布单位:华东政法大学政治学研究院 华东政法大学人工智能与大数据指数研究院 目录 01通用大模型的近期进展 02各国通用大模型的能力比较 03通用大模型的治理风险评估 04通用大模型的风险应对策略 通用大模型 01的近期进展 通用大模型的近期进展 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 大模型的内涵与特征运行机制 大模型的发展历程预训练模型的发展历程 大模型的发展趋势 “大模型”和“小模型”协进 三大特征 多模态预训练模型 通用化与专用化并行 1通用大模型的近期进展 平台化与简易化井进 4/55 1.1大模型的内涵与特征 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 大模型是指容量较大,用于深度学习任务的模型,通常具有海量的参数和复杂的架构 大模型具有更好的通用性、精度和效率,可以通过预训练或其他方式在大型数据集上进行学习,再通过微调 高效地处理计算机视觉、自然语言处理等复杂任务。 Transformer(主 要)、GAN、通过海量数据进微调以应用不同解决各种复杂任务 CNN以及RNN行预训练(通才)场景(专家) 等架构 预训练模型的运行机制 1通用大模型的近期进展5/55 1.1大模型的内涵与特征 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 涌现性扩展性复合性 强化技术的融合解决传统A的问题增强A的能力 有效集成自然语言处 大模型能够有效支 在海量通用数据上预训 理等多个人工智能核 撑智能终端、平台、 练以具备多种基础能力, 心研究领域的多项技 系统等产品应用落 摆脱传统人工智能能力 术,实现1+1>2的融 地,解决壁垒多、 碎片化、作坊式开发的 合式涌现。 部署难等问题。 局限。 1通用大模型的近期进展6/55 1.2大模型的发展历程 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 单语言预训练模型多语言预训练模型多模态预训练模型 具备多样化的基础语言 能够处理自然语言,源能力,开始分别处理多 于早期的词嵌入(word种自然语言任务,如机 embedding)的工作。器翻译、问答系统、情 感分析等。 以多语言训练模型为核心,进行文字、图片、视频的同步转化,实现 处理多任务的目标。 1通用大模型的近期进展7/55 1.2大模型的发展历程 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 多模态预训练模型:人工智能如何理解世界? .... 文本语音 视觉 应用领域进展 深度多任务学习能够应用 医疗于医学影像分析中 理解式任务金融同一海量数据的多任务处理 工业Multi-Task经典模型结构 多模态预训练模型处理多任务全空间多任务模型ESMM 多模态与多任务 生成式任务教育 预训练模型的结合应用 1通用大模型的近期进展8/55 1.3发展趋势:“大模型”和“小模型”协进 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 模型 1.算力要求过高量化 2.显存占用过大模型增强模型抗攻击性 剪枝 1.推理增速有限知识 减少信息泄露风险 2.训练时长增加 1.经济成本激增 蒸馏 参数 共享降低运行碳排放量 低秩 2.能源消耗剧增分解 大模型的限度模型压缩技术小模型的好处 1通用大模型的近期进展9/55 1.3发展趋势:“大模型”和“小模型”协进 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 作为样本价值判断模型,小模型可以帮助大模型快速学习 利用小模型作为Teacher,可以帮助大模型快速收敛 大模型 借助知识蒸留等技术,大模型的能力可以传给小模型 小模型 如何实现大模型和小模型的联动和互助 改进知识蒸馏等技术,大模型一次可以产出多个小模型 1通用大模型的近期进展10/55 1.3发展趋势:通用化与专用化并行 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 表征 学习多任务处理 单模态多模态多模态编码 迁移统一模型框架 四学习 1.从算法只能处理一种模态到可以处理多种模态 2.从算法仅能基手一种模态学习并只能应用于该模态到可以学习并应用于多种模态 1通用大模型的近期进展11/55 1.3发展趋势:通用化与专用化并行 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 应用需求 反哺技术技术落地 专用大模型通用预训练专用领域预训练业务场景应用 ,统一架构:使用统一的模型架构,并采用 相同的学习模式 框架 基础通用大模型,统一模态:构建可以适用于多种模态的通 用词表 ,统一任务:将所有任务统一成序列到序列 任务 1通用大模型的近期进展12/55 1.3发展趋势:平台化与简易化并进 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 模型开发场景适配推理部署 数据增强和清洗能力并行计算能力 存储优化能力 大模型和小模型无缝联动能力 便捷微调能力自适应分布式推理能力 开发工具微调工具部署工具 低参数调优能力 自动化压缩能力 自适应分布式训练能力 弹性容错训练能力 加密部署能力 全能、简易开发服务平台 1通用大模型的近期进展13/55 Z 各国通用大模型 的能力比较 各国通用大模型的能力比较 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 美国目前通用大模型的发展现状 为何中美之间会存在 如此差距? 引言:各国通用大模型的技术进展 中国对大模型相关领域的布局情况 原创能力 其他国家大模型技术技术配套 的发展情况 发展差距 制度环境 2各国通用大模型的能力比较15/55 引言:各国通用大模型的技术进展 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL .ChatGPT(GPT,GenerativePre-trainedTransformer,ChatGPT:Optimizing 生成预训练转换器)的出现反映出了人工智能发展的新 趋势,即AI正在从感知智能向认知智能快速发展。 ,美国作为人工智能发展领域的前沿国家,其拥有一系列 具备充足技术和资金资源的公司和实验室,如谷歌、微 LanguageModels forDialogue We'vetrainedamodelcalledChatGPTwhich 软、OpenAI等。interactsinaconversationalway.Thedialogue 中国作为人工智能领域发展的重要参与者,中国正在加formatmakesitpossibleforChatGPTtoanswer 快其在通用大模型领域的投资与研究。例如,百度、腾followupquestions,admititsmistakes,challenge 讯、阿里、科大讯飞等大型科技公司正在加速开发该领incorrectpremises,andrejectinappropriate reguests.ChatGPTisasiblingmodelto 域的技术。InstructGPT,whichistrainedtofollowan instructioninapromptandprovideadetailed response TRYCHATGPT7 2各国通用大模型的能力比较16/55 2.1 美国自前通用大模型的发展现状 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 美国自前的科技巨头公司,如谷歌、微软、亚马逊,Meta等都在通用大模型上进行了进一步的布局与投资 ·StabilityAI等AI初创公司同样表示将积极布局AIGC、ChatGPT等相关技术和产业 模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性 3640 Generative支持连续对话、可质疑文本编辑无法进行网 ChatGPTOpenAl Pre-trained Transformer 3.5 千亿级PetaFLOPs主动承认错误、加入RLHF编程、翻译、页搜索、黑 perday训练范式算术箱问题 最大化积极影响、避免提较ChatGPT较ChatGPT Claudeconstitution-al Anthropic520亿 供有害建议、自主选择文本编辑更代码推理更 (封测)AI加入RLAIF训练范式长且自然弱 将加入 Bard较ChatGPT算可以根据最新事件进行对犯事实性错 (内测) 谷歌LaMDA1370亿 力需求更低话、更负责任 Chromeos为 误 搜索引擎 2各国通用大模型的能力比较17/55 2.1 美国自前通用大模型的发展现状 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 具备指令微调,可以 生成创意文本 改善其对未见任务的 解决基本数学问 全部访问权 零样本和少样本泛化 题、回答阅读理 限受限制 能力 解问题 模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性 OpenPre- BlenderBot3MetatrainedTransformer 1750亿 Megatron-微软Transformer高质量的自然语言训阅读理解、常识被ChatGPT Turing 英伟达语言模型 5300亿 练语料库推理、词义消歧反超 ,在人工智能大模型领域,美国各巨头科技公司均有相关的技术资源, 整体而言,目前ChatGPT的表现最为优异。即便是谷歌的Bard在实际表现上似乎也逊于ChatGPT。 2各国通用大模型的能力比较18/55 2.2中国对大模型相关领域的布局情况 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 继OpenAI发布ChatGPT大模型之后,中国的各科技公司纷纷加入了大模型开发和应用的队伍。例如、腾讯 阿里、百度、科大讯飞等科技巨头公司均有跟进大模型的研发与应用 ,对自前国内大模型发展而言,我们与国外的差距重点不在模型,而在算力。 模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性 文心一言基于百度知识增强 较Chat 生成式搜素、跨模文本生成、将加入百生成文本 (内测) 百度 大模型ERNIE3.0 2600亿GPT算力 需求低 态理解与交互度搜索引擎较短 Transformer国内首个AI统一图像描述、视觉定位、用户使用 通义M6阿里Encoder-Decoder10万亿能耗低底座、借鉴人脑的文生图、视觉蕴含量较少 ResNetBlocks模块化设计 混元腾讯 基于MoE模型的 万亿能耗较低 成本较低、多模态 计算机视觉、自然语言处理、多模态内容 用户使用 IransformerBlock理解、跨模态理解 理解、文案生成 量较少 2各国通用大模型的能力比较19/55 2.2中国对大模型相关领域的布局情况 华东政法大学政治学研究院 PoliticalScienceInstitute,ECUPL 模型名称开发公司技术支持参数量耗费算力主要特点应用范围局限性 中国科学基于异思 紫东太初院自动化MindSpore千亿 研究所框架 全球首个视觉-文本语音跨模态检测 三模态预训练模型,同时 视觉问答、语 项目落 具备跨模态理解与跨模态 生成能力 义描述、视频 理解与生成 地难 盘古Encoder- 模型具备极佳泛化能力 跨模态检索、 华为千亿跨模态生成、模块化 (未上线)Decoder架构效率高内容生成等 ,在人工智能大模型领域,中国公司的科技实力与国外公司存在一定差距 中国企业自前正在努力将之前的发展重点(单一模型对应单一任务的专用大模型)调整为通用大