华东政法大学政治学研究院 人工智能通用大模型(ChatGPT)的进展、风险与应对 发布单位:华东政法大学政治学研究院 华东政法大学人工智能与大数据指数研究院 目录 01通用大模型的近期进展 华东政法大学政治学研究院 02各国通用大模型的能力比较 03通用大模型的治理风险评估 04通用大模型的风险应对策略 01 通用大模型 华东政法大学政治学研究院 的近期进展 1通用大模型的近期进展 大模型的内涵与特征大模型的发展历程大模型的发展趋势 华东政法大学政治学研究院 运行机制 预训练模型的发展历程 “大模型”和“小模型”协进 三大特征 多模态预训练模型 通用化与专用化并行 445 平台化与简易化并进 1通用大模型的近期进展 4/55 1.1 大模型的内涵与特征 •大模型是指容量较大,用于深度学习任务的模型,通常具有海量的参数和复杂的架构。 •大模型具有更好的通用性、精度和效率,可以通过预训练或其他方式在大型数据集上进行学习,再通过微调 高效地处理计算机视觉、自然语言处理等复杂任务。 Transformer(主要)、GAN、CNN以及RNN 等架构 通过海量数据进 华东政法大学政治学研究院 行预训练(通才) 微调以应用不同场景(专家) 解决各种复杂任务 5554 预训练模型的运行机制 1通用大模型的近期进展 5/55 1.1 大模型的内涵与特征 涌现性扩展性复合性 华东政法大学政治学研究院 强化技术的融合解决传统AI的问题增强AI的能力 6654 有效集成自然语言处理等多个人工智能核心研究领域的多项技术,实现1+1>2的融合式涌现。 大模型能够有效支撑智能终端、平台、系统等产品应用落地,解决壁垒多、部署难等问题。 在海量通用数据上预训练以具备多种基础能力,摆脱传统人工智能能力碎片化、作坊式开发的局限。 1通用大模型的近期进展 6/55 1.2 大模型的发展历程 华东政法大学政治学研究院 单语言预训练模型 多语言预训练模型 多模态预训练模型 能够处理自然语言,源于早期的词嵌入(wordembedding)的工作。 具备多样化的基础语言能力,开始分别处理多种自然语言任务,如机器翻译、问答系统、情感分析等。 以多语言训练模型为核心,进行文字、图片、视频的同步转化,实现处理多任务的目标。 7754 1通用大模型的近期进展 7/55 1.2 大模型的发展历程 应用领域 进展 医疗 深度多任务学习能够应用于医学影像分析中 金融 同一海量数据的多任务处理 工业 Multi-Task经典模型结构; 全空间多任务模型ESMM 教育 多模态与多任务 预训练模型的结合应用 •多模态预训练模型:人工智能如何理解世界? ······ 文本语音 视觉 多模态预训练模型 1通用大模型的近期进展 处理多任务 理解式任务 华东政法大学政治学研究院 生成式任务 8/55 1.3 发展趋势:“大模型”和“小模型”协进 1.算力要求过高模型 量化 2.显存占用过大模型 剪枝 华东政法大学政治学研究院 1.推理增速有限知识 2.训练时长增加蒸馏 参数 1.经济成本激增共享 低秩 2.能源消耗剧增分解 增强模型抗攻击性减少信息泄露风险降低运行碳排放量 大模型的限度 1通用大模型的近期进展 模型压缩技术 小模型的好处 9/55 1.3 发展趋势:“大模型”和“小模型”协进 作为样本价值判断模型,小模型可以帮助大模型快速学习 如 何利用小模型作为Teacher,可以帮助大模型快速收敛实 华东政法大学政治学研究院 现大模型和小 型 模大模型小模型 借助知识蒸馏等技术,大模型的能力可以传给小模型 的联动和互助 改进知识蒸馏等技术,大模型一次可以产出多个小模型 1通用大模型的近期进展 10/55 1.3 发展趋势:通用化与专用化并行 表征 学习多任务处理 单模态 多模态 多模态编码 华东政法大学政治学研究院 迁移统一模型框架 学习 1.从算法只能处理一种模态到可以处理多种模态 2.从算法仅能基于一种模态学习并只能应用于该模态到可以学习并应用于多种模态 1通用大模型的近期进展 11/55 1.3 发展趋势:通用化与专用化并行 应用通用预训练专用领域预训练业务场景应用需求 反哺技术 技术落地 基础 框架 华东政法大学政治学研究院 ●统一架构:使用统一的模型架构,并采用 相同的学习模式 ●统一模态:构建可以适用于多种模态的通 用词表 ●统一任务:将所有任务统一成序列到序列 任务 1通用大模型的近期进展 12/55 1.3 发展趋势:平台化与简易化并进 模型开发场景适配推理部署 数据增强和清洗能力 华东政法大学政治学研究院 并行计算能力 开发 工存储优化能力具 自适应分布式训练能力弹性容错训练能力 微便捷微调能力 调 工 具 低参数调优能力 大模型和小模型无缝联动能力 部 署自适应分布式推理能力工 具自动化压缩能力 加密部署能力 1通用大模型的近期进展 全能、简易开发服务平台 13/55 华东政法大学政治学研究院 02 各国通用大模型 的能力比较 2各国通用大模型的能力比较 美国目前通用大模型 的发展现状 为何中美之间会存在如此差距? 引言:各国通用大模型的技术进展 中国对大模型相关领域的布局情况 华东政法大学政治学研究院 其他国家大模型技术 的发展情况 原创能力 技术配套 制度环境 发展差距 2各国通用大模型的能力比较 15/55 2引言:各国通用大模型的技术进展 •ChatGPT(GPT,GenerativePre-trained Transformer,生成预训练转换器)的出现反映出了人工智能发展的新趋势,即AI正在从感知智能向认知智能快速发展。 华东政法大学政治学研究院 •美国作为人工智能发展领域的前沿国家,其拥有一系列具备充足技术和资金资源的公司和实验室,如谷歌、微软、OpenAI等。 •中国作为人工智能领域发展的重要参与者,中国正在加快其在通用大模型领域的投资与研究。例如,百度、腾讯、阿里、科大讯飞等大型科技公司正在加速开发该领域的技术。 2各国通用大模型的能力比较16/55 2.1 美国目前通用大模型的发展现状 •美国目前的科技巨头公司,如谷歌、微软、亚马逊、Meta等都在通用大模型上进行了进一步的布局与投资。 华东政法大学政治学研究院 •StabilityAI等AI初创公司同样表示将积极布局AIGC、ChatGPT等相关技术和产业。 模型名称 开发公司 技术支持 参数量 耗费算力 主要特点 应用范围 局限性 ChatGPT OpenAI GenerativePre-trainedTransformer 3.5 千亿级 3640PetaFLOPsperday 支持连续对话、可质疑、主动承认错误、加入RLHF训练范式 文本编辑、编程、翻译、算术 无法进行网页搜索、黑箱问题 Claude(封测) Anthropic constitution-alAI 520亿 — 最大化积极影响、避免提供有害建议、自主选择、加入RLAIF训练范式 较ChatGPT文本编辑更长且自然 较ChatGPT代码推理更弱 Bard(内测) 谷歌 LaMDA 1370亿 较ChatGPT算力需求更低 可以根据最新事件进行对话、更负责任 将加入ChromeOS为搜索引擎 犯事实性错误 2各国通用大模型的能力比较 17/55 2.1 美国目前通用大模型的发展现状 模型名称 开发公司 技术支持 参数量 耗费算力 主要特点 应用范围 局限性 BlenderBot3 Meta OpenPre-trainedTransformer 1750亿 — 具备指令微调,可以改善其对未见任务的零样本和少样本泛化能力 生成创意文本、解决基本数学问题、回答阅读理解问题 全部访问权限受限制 Megatron-Turing 微软英伟达 Transformer 语言模型 5300亿 — 高质量的自然语言训练语料库 阅读理解、常识推理、词义消歧 被ChatGPT反超 •在人工智能大模型领域,美国各巨头科技公司均有相关的技术资源。 •整体而言,目前ChatGPT的表现最为优异。即便是谷歌的Bard在实际表现上似乎也逊于ChatGPT。 华东政法大学政治学研究院 2各国通用大模型的能力比较 18/55 2.2 中国对大模型相关领域的布局情况 •继OpenAI发布ChatGPT大模型之后,中国的各科技公司纷纷加入了大模型开发和应用的队伍。例如、腾讯、阿里、百度、科大讯飞等科技巨头公司均有跟进大模型的研发与应用。 华东政法大学政治学研究院 •对目前国内大模型发展而言,我们与国外的差距重点不在模型,而在算力。 模型名称 开发公司 技术支持 参数量 耗费算力 主要特点 应用范围 局限性 文心一言(内测) 百度 基于百度知识增强 大模型ERNIE3.0 2600亿 较Chat GPT算力 需求低 生成式搜索、跨模态理解与交互 文本生成、将加入百度搜索引擎 生成文本较短 通义M6 阿里 TransformerEncoder-Decoder,ResNetBlocks 10万亿 能耗低 国内首个AI统一底座、借鉴人脑的模块化设计 图像描述、视觉定位文生图、视觉蕴含 用户使用 量较少 混元 腾讯 基于MoE模型的 TransformerBlock 万亿 能耗较低 成本较低、多模态理解、跨模态理解 计算机视觉、自然语言处理、多模态内容理解、文案生成 用户使用量较少 2各国通用大模型的能力比较 19/55 2.2 中国对大模型相关领域的布局情况 模型名称 开发公司 技术支持 参数量 耗费算力 主要特点 应用范围 局限性 紫东太初 中国科学院自动化研究所 基于昇思MindSpore框架 千亿 — 全球首个视觉-文本-语音三模态预训练模型,同时具备跨模态理解与跨模态生成能力 跨模态检测、视觉问答、语义描述、视频理解与生成 项目落地难 盘古(未上线) 华为 Encoder-Decoder架构 千亿 — 模型具备极佳泛化能力,效率高 跨模态检索、跨模态生成、内容生成等 模块化 华东政法大学政治学研究院 •在人工智能大模型领域,中国公司的科技实力与国外公司存在一定差距。 •中国企业目前正在努力将之前的发展重点(单一模型对应单一任务的专用大模型)调整为通用大模型。例如,百度2023年3月即将推出“文心一言”通用大模型。华为、阿里和腾讯也表示将加快通用大模型的落地。 2各国通用大模型的能力比较 20/55 2.3 其他国家大模型技术的发展情况 模型名称 开发公司 技术支持 参数量 耗费算力 主要特点 应用范围 局限性 YaLM 俄罗斯 Yandex GenerativePre-trainedTransformer 1000亿 能耗较高 采用Apache2.0授权同时允许研究及商业免费使用 生成和处理文本 处于行业中下游 Gopher 英国DeepMind Transformer 语言模型 2800亿 能耗较低 超大型的语言模型 阅读理解、事实核查、有害语言识别 应用范围较窄 HyperCLOVA 韩国 Naver 暂无公开 820亿 — 提升韩语模型性能 在韩语领域的文本生成 多模态任务滞后 Jurassic-1Jumbo 以色列 A21Labs MRKL模块化推理、知识和语言系统 1780亿 能耗较高 兼顾神经模型和符 号推理能力 转述、从文本 中提取数字 尚未对输出的潜在有害内容进行过滤 华东政法大学政治学研究院 2各国通用大模型的能力比较 21/55 2.4 发展差距:为何中美之间会存在如此差距? •通用大模型的研发已经成为各国新一轮技术竞争的核心领域。 •中国企业在原创能力、技术配套、制度环境三个方面,存在一系列亟待解决的问题。 •这些问题制约了中国通用大模型的进一步发展,并导致中国与美国存在一定的技术差距。 华东政法大学政治学研究院 发展环境技术实力原创能力 2各国通用大模