阿里大模型深度解读核心要点20230409 —————————————– 嘉宾:阿里云研究院高级专家 #阿里大模型进化史1.19年9月开始布局 2.21年4月发布PLUG大模型,具有270亿参数和1.5TB训练数据 3.21年9月发布M6大模型,扩展到10万亿规模 4.2023年4月7日发布通义千问内测版 5.集团内已有60多个业务体使用PLUG和M6大模型,包括天猫精灵,车载系统和智能客服等 #阿里大模型和GPT-3对比 1.算法方面,和GPT-3架构基本类似,都是采用Transformer,但Reward反馈模型、Encoder和Decoder之间的同步机制不同 2.参数方面,GPT-3参数1750亿,通义千问基于PLUG的模型(参数270亿),参数在200-300亿,主要偏向文本,没有涉及图像和视频 3.预训练语料数据集方面,在质量和规模上都比不上OpenAI和百度 4.效果方面,总体效果相当于GPT-3,在中文环境下更好,跟百度文心效果差不多,但模型调优和人工精标、反馈机制的设计上优于百度 #阿里大模型发布节奏 1.下周阿里云峰会发布:NLP领域的通义千问大模型(通过网页开放测试),基于钉钉版的大模型,CV领域的类似文生图的扩散模型(基于M6的生成式模型) 2.9月云栖大会发布:更大多模态预训练模型,即M7版本,集成NLP、CV、多模态和科学计算四种能力 #阿里算力储备和采购计划 1.训练算力基本依赖于英伟达V100和A100,及部分A800 2.云端推理目前用的是阿里自研的寒光800、高端的CPU卡、英伟达低端的推理卡,以及国内的寒武纪、海光、昇腾310等 3.进入商业化阶段,推理算力需求要比训练算力高十倍、百倍甚至千倍 4.A100存量大约5000张,达摩院需要1000张;A800在陆续采购,目前有近6000张;V100也在采购 5.今年计划从英伟达采购芯片总量3万张,其中70%-80%为V100和A800