您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[智源研究院]:AI大模型开源生态及大模型平台实践 - 发现报告
当前位置:首页/行业研究/报告详情/

AI大模型开源生态及大模型平台实践

信息技术2023-09-05胡晓曼智源研究院庄***
AI智能总结
查看更多
AI大模型开源生态及大模型平台实践

[M]鼻思 3AAI 智源研究院 A|大模型开源生态及 大模型平台实践 演讲人:华为昇思MindSpore开源生态总监胡晓曼 CONTENTS [M]昇思 3AAI 智源研院 01·生态基石:AI大模型开源生态发展洞察分析 02·模型底座:华为AI大模型全景架构及应用案例 03·平台架构:大模型平台技术架构及技术分析 智源研究院 [M]鼻思 01 生态基石:AI大模型开源生态发展洞察分析 A螺旋上升式发展、重大变革机会,从感知理解世界到生成创造世界,A增长新曲线 感知理解世界生成创造世界 分析数据给出建议产业辅助合成数据创造结果新产业 A技术里程碑控制论NLPCV深度学习GANAI4SStableDiffusionChatGPT “图片生成文本生成 ChatGPT: AI产业发展 安防-视觉在GPT-3大模型的基础上,通过100 互联网-推荐人标注1年高质量人工数据,强化学 “三叠浪” AI重点事 专家系统习所训练出的大模型 图像生成: stablediffusion,DALL-E2、紫东.太 初等业界知名的可以进行图像生成的A模型均是大模型 件里程碑1956年1997年2007年2020年2022年 达特茅斯会议定义:深蓝机器人战胜视觉识别超过人类AlphaFoldChatGPT Artificialintelligence国际象棋大师蛋白质结构预测 17%->58% 大规模语言模型(LLM)所现出来的能力超出预期 月,使得LLM成为技术演进方向 LLM从量变到质变增大模型容量有效办法 从chatGPT和更多实验中发现,语言模型规模超过一定阅值 产生了超预期的能力涌现,比如语言理解能力,意图理解能 增加模型参数 力,多轮对话记忆能力等;增加训练数据 增减训练轮数 港大模型方法代势务势可行性 增加模型参款需大提型根本方法 1)提带基于先感设 (3)参数升,工程训的泌度质之量升; 1)增量量的行为 (2)数照来源无保证多开能和均一性 充分用模型容量:过多临导致模型过3合 增加模型参数是当前曾大模型容量的最可行方法提升模型参数和增加训练数据见效最佳 文章重点考案了小样本提示任务中各种模型的涌现能力为什么近年模型容量提升速度却在放缓? 更大规模是否能够促使更多涌现能力,LLM规模天花板模型参数持续提升,当前模型性能提升逐渐趋于平缓 在哪,将是NLP未来的重要研究方向模型参数提升带来了极大的成本提升 参考文t:EmergenceAbilityofLargeLanguageModel ChatGPT:大算力+大数据=大模型,人工反馈强化学习增强模型效果 GPT-3ChatGPT 人工标注数据 2020年6月2022年12月 GPT-2 参数:1750亿&强化学习参数:1750亿 2019年2月参数量提升100倍数据:45T+×收于风款,上下女理解,连对证能力 GPT-1参数:15亿 2018年6月数据:40GB 数据量提升1000倍 承认不用道、用户磨图有效能提 解决了GPT-3的问题,实现90%+的准确性 参数:1.17亿 催熟算法架构 效果:单一模型统一所有NLP任务,超越现有模型问顾:会生成错误信息,结果不可控 生成创造,已接近人的水平 ChatGPT是在GPT-3的基础上,通过高质量人工数据进行强化学习所训练出的模型 互联网 核心爬取海量数据 基于人工标注数据 ChaGPT生结果 (如代的) 评价模型 训练GPT-3增量训练GPT-3 ChatGPTRM 流程无标注数据 代码数据基于人工打分 自监督学习100人标注1年 大规模分布式训断高质量数据(2000字文篇) RM时生成就果(代巧)准得性评的好坏(强化学孕编) ChatGPT成功关键:庞大算力支持+RLHF使模型更对齐人类语境+高质量数据持续训练 14高质量的垂直领域人工标注数据 GPT-3->InstructGPT至少需要10万条高质量标注敌据,ChatGPT则需要更多 庞大的算力未来GPT模型注入企业内部顿域知识则需要构建额外的高质量标注数据高素质领域专家参与数据标注和增强工作 3 训练:992块GPU (A10080GB)可显性化的推理范式与基于人类反馈的送代更新 ChatGPT训练阶段引入RLHF微调范式,指导模型对齐人类语境准理/路:8块GPUGPT-3:海量数据无监督训练,具备很强的上下文学习能力 (A10040GB)GPT-3.5:代码微调+指令微调学习,具备可显性化的思维链和推理能力 训练/次:460万美GPT+RLHF:具备向用户偏好对齐的能力,答案更符合人类预期 元50+研究人员 Al 治理理与伦围 快总训练成本:1200 5年探索研究 ChatGPT万美元巨量的通用领域无标注数据 GPT-3:从45TB原始文本语料筛选出570+GB高质量数摄掘(约3000亿单词)GPT-3.5:训练数需包含5400万个代码库,仅Python语言就有159GBChatGPT模型还涉及自建/第三方客户/线上用户等来源的数据 高速旋转的数据飞轮、大算力驱动模型更快的进化 ChatGPT过人之处:RLHF基于人类反馈的强化学习 WhyRLHF?HOWRLHF? 口什么是RLHF?第一步:精心标注语言以Prompt方式微调模型 此给出回善 RLHF:ReinforcementLearningfromHumanFeedback学生别题:OpenA招募了40位专家,标注了5万条亮质量致据,有监暂即,人类反馈的强化学习微调训阵模型,通过样例学习款会机器理解人类prompt忽合的急图,并 增强了人对模型输出结果的调节,并且对结果进行了更具理解性的排序, 口为什么需要RLHF?ERS RLHF带来的威力第二步:对答案优劣排序,训练奖励模型 企业运营效率多少最为合适?有效的迅应: 问题实的回应:默认领向长答需 老师阳卷:落过OpenAI开故的若API收集数据(模型对间一问照的不尚回 答),收集人类的评分并排序,以比数据训练奖器模型,售诉机器人类的喜 chatGPT 公正的回应:特针对治事件好. 艳绝不当闯题 利用RLHF,chatGPT性能领先一众模型: 回答如左围,chatGPT编出4个结果对第三步:通过强化学习训练出策略模型 我也不知道,请您告诉我 那资产负债事多少合适?不能过高也不能过低? 业界先进企业一股-100天 对送者更频向于“业胃先进企业 股<100天* 其能回落对手对语者无帮购: 学生模考:从数据集中果群promp样别,从蓝督模型初始化策落模型, 受用美模型考茶费略模型的调出,美微模限现升策略模生的效果, 609打分 即,RLHF日的量提升chatGPT输出$752022年8 累有效性:RSRR ChatGPT国内商业化落地,对算力集群软硬件提出全新挑战 集群建设的挑战模型训练、推理的技术挑战 参数大:GPT-3/ChatGPT训练数据量45TB相当于170个维基百科:单次训练·全技术难:ChatGPT大模型+大数据持续学习、基于人类反馈强化学习 算力费用高达2000万美元(OpenAI万卡V100/A100持续选代3年):和微调、多机多卡/单卡推理等全栈全流程技术要求: 模型:ChatGPT模型闭源,国内存在1~2年差距:科研团队、算法公司积,行业结合难:优质模型+专业知识投入+厂商A技术支撑,是大模型可以产 极参与算法创新需要大算力支持。业落地的关键。 ChatGPT是大算力、大数据驱动的大模型,通过人工反馈强化学习增强模型效果 模型名 模型架构 参数量 算力 框架 GPT-3 DenseDecoder-only 175B 10000V100 pytorch Megatron-530B DenseDecoder-only 530B 2240A100 pytorch GShard-M4 MoEEncoder-decoder 600B 2048TPUv3 TF GLaM MoEDecoder-only 1.2T 1024TPUv4 Jax Palm DenseDecoder-only 540B 6144TPUv4 Jax Gopher DenseDecoder-only 280B 4096TPUv3 Jax 悟道GLM DenseDecoder-improve 130B 768A100 pytorch ChatGPT商业模式:云服务、传统业务升级、主垂类解决方案 云服务变现业务升级模型和数据解决方案 ChatGPTPaaS/SaaS传统推荐式搜索精准问答式搜索ChatGPT模型 laaS云服务器PGC-UGCAIGC基础软件数据 硬件 硬件 ·OpenAI ●微软:NewBing,对google发起挑战 智谱AI ·微软Azure ·百度:文心一言嵌入百度搜索 垂类初创等 ·360搜索等其他搜索公司·科大讯飞:新一代智能客服 ·畔哩哗哩:新一代虚拟人 现有产业链拆解:数据供给合→模型定制→内容分发 上游:数据供给中游:模型开发与定制下游:应用与分发 数据收集算法开发内容生产厂商 数据标记训练深度学习模型内容创作应用服务商 数据预处理二次开发定制化模型内容分发平台 收象大量原始数据并对其进行1)使用注释数据开发和训练_AI1)协助用户使用模型和算法生成内 预处理,以他提供给接型认练。 模型以生成内容:客,如图像、文本、语音等, 2)在重直细分领域进行模型的12)将生成的内容分发到种集道, :次开发,以便适应定制化需求,如让交媒体、娱乐平台、新国媒体等。 GoogleMicrosoftMMeta文本图像音频视频代码 BERI(语言理解与Florence(规觉识别)OPT-17SB(规爱识则) 生成)Turng-NLG(inRM2M-100(谱言理解) 邮件摆写绘画生成A编曲代码生成 Bard(阳天机器人) 生成) 会议纪要AI换险AI配鲁视频明辑代码纠件 ODeepMindNVIDIAopenAIstabilityai Ga(多模布) opher(a Megatror文案策划西作修复有声播客素材西配代码优化 言理解、生成、 ONJeunL AiphaCode((代 生成、准理) CLIP&DALL-E含理W图像对话期天产告制作会议还原特效生成Applif (图像生成)生成) 上下游各赛道百花齐放,商业模式持续探素 以ChatGPT为代表的AIGC行业,上游主要包括数据供给方、算法/模型机构、创作者生态以及底层配合工具等, 中游主要包括文字、图像、音频、视频等数字内容的处理加工方,下游主要是各类数字内容分发平台、消费方及相关服务机构等, 上数据供给方数据分析标注创作者生态 底层配合工具 (业务数据联通、素材数据收集等,如第三方营销自动标注工具、图像 公司、版权图库方等)分制算法等 生物资产、内容素材音视频等多模态内容 染引笔、混音设备等 相关算法/模型研究机构相关开源算法嵌入/结合能力的业务平台/业务生态 内容设计 内容制作工具 周边售卖 视党设计、文案设计、结构设计等 音频/视频编辑工具、新闻采编、游戏制作等 NFT、个性化产品等 运营增效 智能客服、筒单决策等 个性化市场营销数据梳理自动实时 广告植入、品牌虚报形象打造、营销内容生成等内外部数据分析及更新、数排分析及算法训练交互 各内容创作及分发平台第三方内容终端生产厂商消费品 基于AICG激发PGC及UGC活力分发渠道新阅媒体机构、金融机构等厂商 AIGC内容检测第三方内容服务机构 MCN公司、公关公司等 头部公司聚焦基础设施+大模型初创集中各领域应用层 A12 ASRUCA opy4 INRCHIBI 智源研究院 [M]昇思 02 模型底座: 华为AI大模型全景架构 及应用案例 华为大模型方案:集群全栈软硬件能力,使能大模型开发、训练、微调、部署 大模型统一服务平台开放服务平台 推理服务平台社区活动 大模型预训练模型市场大模型在线微调社区竞赛大模型培训产业化落地索例·NLP、CV、多模态、AIGC等12+基础大模型 大模型 大模型开发套件 NLPCV跨模态 大