您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华西证券]:AIGC行业深度报告(12):Sora算力倍增,国产架构+生态崛起 - 发现报告
当前位置:首页/行业研究/报告详情/

AIGC行业深度报告(12):Sora算力倍增,国产架构+生态崛起

信息技术2024-02-19刘泽晶华西证券华***
AI智能总结
查看更多
AIGC行业深度报告(12):Sora算力倍增,国产架构+生态崛起

华西计算机团队 2024年2月19日 分析师:刘泽晶 SACNO:S1120520020002 邮箱:liuzj1@hx168.com.cn 请仔细阅读在本报告尾部的重要法律声明 证券研究报告|行业深度研究报告 Sora算力倍增,国产架构+生态崛起 AIGC行业深度报告(12) 核心逻辑: 全球算力架构升级战已打响。英伟达架构持续升级,升级迭代速度明显加快,平均两年架构升级,我们判断目的是维持在GPU霸主地位,根据新浪财经报道,B100将于2024年第三季度开始量产,部分早期样品将于明年第二季度出货。而我们认为英伟达TensorCore专为AI而生,目前其Hopper架构已经为第四代,Hopper架构超强性能,可加速所有精度,性能领先,应用广泛,我们判断其广泛应用于训练市场。AMD奋起直追,欲挑战英伟达龙头地位,第三代InstinctMI300系列性能优异,满足生成式AI强劲需求,相较于H100,MI300X性能优异,单从跑分情况更具性价比。 打响关键自主可控保卫战,华为领先演绎国产计算生态崛起:自2018年来,美国通过多种制裁手段,严重限制我国高科技领域发展。根据同花顺财经报道,拜登政府2023年10月17日更新了针对AI芯片的出口管制规定,计划阻止英伟达等公司向中国出口先进的AI芯片。根据钛媒体报道,英伟达应对制裁,推出中国特供版H20芯片,其性能相较于H100大打折扣。华为海思昇腾AI芯片,有望构建算力的第二极,目前我们判断,华为昇腾910已具性价比。华为昇腾计算平台CANN已经实现从0至1突破,已支持50+主流大模型,同时兼容主流加速库及开发套件,加速型创新落地;此外已经支持主流框架,周级实现新版本适配。 SORA彻底颠覆文生视频领域,算力有望呈现几何倍数需求:OpenAI2月16日凌晨发布了文生视频大模型SORA,它能够仅仅根据提示词,生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。SORA震撼发布,彻底颠覆文生视频领域,SORA根本区别在于,可以理解成是一种融合Transformer模型与StableDiffusion的一种模型。通过我们的测算,Sora架构的训练与传统大语言模型(LLM)Transformer架构的训练算力需求存在近百倍差距。因此我们推测由于SORA,算力需求有望持续呈现几何规模的倍增,同时在信创和AI的大背景下,国产算力有望大放异彩。 投资建议:受益标的:服务器相关产业链:高新发展、神州数码、拓维信息、中国长城等;电源相关产业链:泰嘉股份等;算力一体机相关产业链:开普云、云从科技、科大讯飞、安恒信息、新致软件等;鸿蒙相关产业链:九联科技、润和软件、软通动力、中软国际等;PC等相关标的:华勤技术、智微智能、东方中科、芯海科技等;AI应用:润达医疗、万兴科技等。 风险提示:核心技术水平升级不及预期的风险、AI伦理风险、政策推进不及预期的风险、中美贸易摩擦升级的风险。 目录 01SORA横空出世,算力需求倍增 02全球算力架构升级战已打响 03国产算力生态崛起 04投资建议:梳理AI算力相关受益厂商 05风险提示 01SORA横空出世,算力需求倍增 大语言模型(LLM):LLM是一种利用机器学习技术来理解和生成人类语言的人工智能模型。LLM使用基于神经网络的模型,通常运用自然语言处理(NLP)技术来处理和计算其输出。我们判断GPT3、GPT3.5皆为大语言模型,GPT在此基础上引入了多模态。 文生图:与大预言模型不同,多模态可以根据文字描述创建原创、逼真的图像和艺术作品。它可以组合概念、属性和样式,我们认为文生图功能对于传统图型生成工具具有颠覆性。 文生视频:多模态人工智能技术实现了从AI文生图到AI文生视频的跨越,实为解放生产力的双手,我们认为其功能颠覆摄影、传媒、 电影制作等行业,例如Gen2。 SORA推开新世界的大门,文生视频加速演进:OpenAI2月16日凌晨发布了文生视频大模型Sora,它能够仅仅根据提示词,生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。 主流模型多模态加速演进(从左到右分别是GPT-4、Dall·E2、Gen2、Sora) Transformer架构是AI向生成式跨越的重要一步:是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。我们判断其广泛应用于大语言模型中(LLM),例如ChatGPT系列中。Transformer模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。 文生图的基础采用的是StableDiffusion架构:StableDiffusion架构是一种自回归模型,基于扩散模型,因此训练和推理代价都很高。它主要用于生成以文本描述为条件的详细图像,但它也可以应用于其他任务,例如修复、外绘以及在文本提示引导下生成图像到图像的翻译。首先需要训练好一个自编码模型,然后利用编码器进行压缩,然后在潜在表示空间上做diffusion操作,最后再用解码器恢复到原始像素空间即可,整个流程类比物理学中的“扩散”。 Transormer架构(左图Encoder,右图Decoder)StableDiffusion原理图 StableVideoDiffusion是文生图到文生视频的跨越:StableVideoDiffusion的核心思想是将视频生成任务分解为两个阶段。首先,它使用扩散模型将随机噪声逐步转化为与输入图片相似的图像。这一阶段是通过逐步添加细节来完成的,类似于将一张图片逐渐“放大”。然后,在第二个阶段,该方法使用一个条件变分自编码器(cVAE)将生成的图像序列转化为视频。cVAE是一种生成模型,能够学习数据分布的特征,并根据特定条件生成新的数据样本。 SORA震撼发布,彻底颠覆文生视频领域:而SORA模型根本区别在于,可以理解成是一种融合Transformer模型与StableDiffusion的一种模型,通过Transformer原理的编码器-解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。GPT-4被训练于以处理一串Token,并预测出下一个Token。SORA不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。 StableVideoDiffusion效果图SORA与其他主流模型比对 SORA具有划时代文生视频的大模型:SORA将可视数据转换成数据包(patchs),大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而SORA则通过视觉包(patchs)实现了类似的效果。从宏观角度来看,首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。 我们判断SORA模型的出现,算力需求有望呈现几何倍数的递增:我们判断Patchs与token的差别在于图片与文字,然而时空间数据相较于语言文字呈现的数据维度有着几何维度的差异,因此我们推测由于SORA,算力需求有望持续呈现几何规模的倍增,同时在信创和AI的大背景下,国产算力有望大放异彩。 SORA与其他主流模型比对 根据AI新智界数据,ChatGPT-3的参数为1750亿,训练数据的token为3000亿,训练所需要每秒浮点运算为3.14x10^23FLOPS,假设训练数据精度为FP16,英伟达H100FP16每秒浮点运算为989.5TFLOPS,假设训练10天,需要英伟达H100卡数为3.14x10^23÷10^12÷ (60x60x24x10)=367.28≈368张; 根据博客园援引谷歌论文《ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE》,例如对于CIFAR-10,一般的设定是大小为16x16x3(3代表3原色,自然界的每种颜色可以通过红、绿、蓝三种颜色表示,AI模型的图片本质即像素点)的patch,因此我们假设SORA适用16x16x3的patch表示一串有损表示图像的tokens; 由于SORA的本质是可以理解成是一种融合Transformer模型与StableDiffusion,即在扩散模型基础上的Transformer模型,而与Transformer的本质不同在于训练数据分别是patch与token,分别代表图片与文字。图像的输入数据不是一个一个字符,而是一个一个像素。假设每个像素有C个通道,图片有宽W和高H,因此一张图片的所有数据可以用一张大小为HxWxC的张量来无损地表示。我们假设C=3 (3代表3原色); 根据澎湃新闻数据,RunwayGEN-2模型由2.4亿张图片和640万个视频片段组成的内部数据集上训练,我们判断SORA架构的训练参数比GEN-2更大,然而为了方便计算,因此我们假设SORA与RunwayGEN-2所训练的数据量相同。我们假设每一张图片分别为1920x1080分辨率,每个视频分别为30秒30FPS,因此patch大小为[(2.4x10^8)+(6.4x10^7x30x30)]x1920x1080x3=3.73x10^16; 我们将Patch大小转换成token大小即(3.73x10^16)÷(16x16x3)=4.86x10^13; Transformer架构持续升级,所需参数量有望增加,然而为了方便计算,我们假设SORA应用的Transformer架构与ChatGPTTransformer 架构相同,且参数量相同,同时假设数据数据精度为FP16,假设训练10天,则需要应为英伟达H100卡数为(4.86x10^13)÷(3x10 ^11)x367.28=59499.74≈59500张。我们推算Sora架构的训练与传统大语言模型(LLM)Transformer架构的训练算力需求存在近百倍差距。 02全球算力架构升级战已打响 平均两年架构升级,目的是维持在GPU霸主地位:根据CSDN数据,英伟达14年期间发布8款芯片架构,我们判断芯片架构的持续升级有望维护其在GPU市场的龙头地位。 英伟达架构升级速度明显加快:根据财联社以及SemiAnalysis消息,预计在H200芯片架构后,B100将于2024年第三季度开始量产,部分早期样品将于明年第二季度出货。而GH200和H200也是于2023年开始问世,同时,AMD也推出了MI300AI算力芯片,谷歌直接表示要打造自己的人工智能基础设施,其TPUv5和TPUv5e可用于内部培训和推理,还供苹果、Anthropic、CharacterAI等公司客户使用。我们判断英伟达架构升级明显处于加速状态。 英伟达全新产品架构升级图 英伟达GPU发展时间表 CUDACore和TensorCore构成了英伟达AI的绝对护城河:在机器学习领域,训练一个机器学习模型需要对大型数据进行筛选。但是随着数据集的数量、复杂度和交叉关系的增加,处理能力的需求呈指数级增长。机器学习经常通过内置的CUDAcore和Tensorcore阵列来完成机器学习任务(训练和推理)。 CUDACore是用于通用并行计算任务的计算核心:可以执行单精度和双精度浮点运算,以及整数运算。它在处理广泛的并行计算任务方面非常高效。CUDACores是实时计算、计算密集型3D图形、游戏开发、密码散列、物理引擎和数据科学计算的主要硬件,在机器学习和深度学习领域,以及TB级别数据训练上,GPU也是重要核心硬件。CUDA的广泛应用造就了GPU计算专用TeslaGPU的崛起。 TensorCore专为AI而生:TensorCore是针对深度学习和AI工作负载而设计的专用核心,可以实现混合精度计算并加速矩阵运算,尤其擅长处理半精度(FP16)和全精度(