您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:算力芯片专家调研,深度解读!–20230719 - 发现报告
当前位置:首页/会议纪要/报告详情/

算力芯片专家调研,深度解读!–20230719

2023-07-23未知机构看***
算力芯片专家调研,深度解读!–20230719

算力芯片专家调研,深度解读!20230719 摘要: 1.相比于ASIC芯片,GPGPU具有更强的通用性。主流的AI加速芯片市场上,GPGPU占到90%的市场份额。 2.传统的小体量模型依赖CUDA,因此GPGPU更加合适,而大模型对于CUDA生态的依赖小,因此GPGPU和ASIC的差距不明显。算力芯片专家调研,深度解读!20230719 摘要: 1.相比于ASIC芯片,GPGPU具有更强的通用性。主流的AI加速芯片市场上,GPGPU占到90%的市场份额。 2.传统的小体量模型依赖CUDA,因此GPGPU更加合适,而大模型对于CUDA生态的依赖小,因此GPGPU和ASIC的差距不明显。但是国内的大模型训练目前只有GPGPU可以完成,ASIC还不够成熟。3.第一梯队的海光芯片(深算1号)可以运行通用的大模型,只是效率比较差。第二位应该是华为的昇腾910,但是只能运行华为自己优化后的大模型。寒武纪只能运行大模型的推理。景嘉微不属于这个市场。沐曦的C100预期性能对标英伟达的H100,壁仞的BR100受到了美国商务部的限制。目前最值得期待厂商的是沐曦。 4.AI芯片的硬件门槛不高,软件门槛较高。在几个核心专利中国内都没有积累,因此会受到美国限制。 5.如果英伟达新品发布节奏不变,国内外的差距很可能逐渐增大。 6.GPT-3,openai训练使用了1万张A100,训练了14.8天左右。每个用户的请求需要5张A100来推理。GPT-4估计大约需要2万-3万张 A100,训练一个月左右的时间。这些比例都是线性的。 7.假设十个大厂要做大模型,可能每家需要2000片A100,换算到国内芯片再乘上一个参数,比如1.5-2,大概是3000-4000片,那么十家就是3万-4万片。但是前提是产品具有充足的稳定性。8.国内模型品质差,数据集不足,并且算力与海外相差甚远。 9.AI算力芯片折旧一般2-3年,最长不超过5年。从2019年开始,算力需求每10个月会翻一番,产品更新迭代很快。 10.国内几家头部互联网厂家都向英伟达下了1.5万-1.6万的A800和H800订单,每家的金额在十几亿美金左右。大概保证在2024年能有足够的产能。 11.中文没有逻辑对应的语义库,厂商之间数据不互通,并且存在一定问题。 交流正文: Q:GPGPU和ASIC芯片在AI算力中分别承担什么样的角色? A:早期开放框架基于GPGPU架构实现,因此软件生态更为成熟,对于初级客户来说,上手使用更加方便。GPGPU的通用性也更好,架构更加适合AI中针对模型的训练以及针对通用模型的部署。对于ASIC芯片来说,如果客户对于模型有深度的研究,也有能力对模型进行特殊的定制化处 理,那么ASIC芯片的产品和解决方案有更高的性价比。ASIC芯片由于模型中特殊算子、特殊结构已经完成了硬件的固化,因此对于一些较大的改动,或是一些与硬件架构强相关的计算来说,可能会存在一定的限制。总体来说,如果模型已经比较成熟,改动都在有限的范围内,那么IC芯片具有更高的性价比,但如果是一个初步的模型,未来需要不断地演进和完善,那么GPGPU是更合适的。 Q:市场上主要关注的AI算力芯片,尤其是海外厂商,如英伟达,都是GPGPU吗? A:对,市场上主流的AI加速设备,GPGPU大约占了90%的市场份额,剩下的10%是一些FPGA、ASIC类的产品。Q:如果换一个角度理解的话,我们现在所处的阶段还不成熟,所以更适合通用性强的GPGPU,如果发展成熟之后,才会需要更多的ASIC芯片。 A:这分为两部分解释。第一,传统的AI相对于目前的大模型来说,可以称之为是小模型的AI,比如早期的CV算法(人脸识别、语音识别、自动应答),这些模型的体量很小。而这个时期的模型很多都是基于英伟达的CUDA生态开发的,使用的框架(如PyTorch、Tensorflow)只是利用了一部分,还有一部分是直接调用CUDA的,这个阶段GPGPU是最合适的。如果现在客户的主营业务还是在这个层面上,那么GPGPU会更加适用。第二,如果客户模型已经基本固化,不会发生大的变化,那么在这种情况下可以采用ASIC,ASIC芯片可以针对它原有的模型做深度的定制化。但是大模型有一定的区别,大模型更加依赖框架,比如Tensorflow和PyTorch,而对于CUDA生态的依赖非常小,在这种情况下,GPGPU和ASIC的重要性的差距就变得很小。这个时候,用户更加关注芯片对于框架的支持和性价比,不存在CUDA产生的影响。 Q:国内的大模型主要使用GPGPU还是ASIC? A:目前能运行大模型训练的只有GPGPU,如英伟达的A100、A800、H100、H800,效率也是最高的。目前ASIC没有大规模的部署,很多ASIC的厂家集中在国内,这些厂商处于早期的阶段,产品不够成熟。但是在一些场景中,我们经过测试发现,ASIC支持大模型的效率高于GPGPU。 Q:国内的厂商,寒武纪、景嘉微、海光和昇腾,性能达到了海外什么层级的水平? A:第一,景嘉微。我们认为景嘉微不是做AI芯片的厂商,景嘉微的产品目前只能用于图形处理、图像渲染,未来可能能实现光线追踪。目前景嘉微最好的JM9系列产品,大概达到英伟达GTX1050的水平,只能算入门级GPU。第二,寒武纪。寒武纪最好的产品是思元590,这款产品在文心一言中有小规模的部署,大概几百件,并且也只是文心一言中众多业务场景的一小部分,没有实现大规模部署。我们认为寒武纪的产品只能用于大规模推理中的一小部分场景,还不能做大模型训练,还有许多需要弥补的地方。第三,华为昇腾。华为昇腾只能用于华为自身生态中的大模 型业务,通用性差。比如昇腾不能做GPT-3,因为昇腾910不支持32位浮点,而目前大模型训练几乎都要使用32位的浮点,所以华为昇腾芯片只能利用华为开发的框架(如MindSpore),在加上优化好的大模型,比如盘古CV。任何公开模型都必须经过华为的深度优化才能在华为的平台上运行,而这部分优化工作华为还没有开始,所以我们现在认为华为只能运行自己闭环的大模型产品。第四,海光信息。海光的深算1号可以运行大模型,目前正在开发深算2号。深算1号相当于英伟达的P100的水平,但是性价比低,即便在openai最早训练GPT-3的时候,也采用了V100芯片。此外,海光还存在迭代问题,因为海光只拿到了AMD第一代GPGPU的授权。 Q:P100相当于那一年的产品?A:大概是2014-2015年的产品。Q:目前海光是可以排在第一梯队吗? A:对,海光的芯片可以运行通用的大模型,只是效率比较差。第二位应该是华为的昇腾910,但是只能运行华为自己优化后的大模型。寒武纪只能运行大模型的推理。景嘉微不属于这个市场。 Q:其他AI芯片厂商有什么比较重要的吗? A:沐曦,今年6月会发布第一款AI训练产品C100,但是还需要经过一些内部的调试、软件适配等,预计在今年年底会对外发布。目前来说,从公布的性能指标来说,C100接近于英伟达的H100的水平。 壁仞,最早的一代产品BR100,本身指标是对标H100的,但是由于美国商务部的禁止条款,壁仞必须把互联带宽降低一半,因此产品要重新设计,影响产品进度,并且性能也受到了影响。目前BR100还在内幕测试过程中,距离真正的批量使用大约还需要半年的时间。天数智芯的芯片只能勉强做大模型推理。百度的昆仑芯只能勉强用于大模型推理,并且是基于Paddle平台的,通用性差。 Q:是不是目前最值得期待的就是沐曦的产品? A:对,从团队背景来讲,沐曦的团队背景经验是最丰富的,沐曦的一些核心人员,是参与AMD的MI100、MI200产品开发的,这都是AMD目前最主流的GPGPU产品。从产品规划来看,沐曦产品对标H100,未来实现量产大概与英伟达只有一代左右的差距,因此目前来看是与英伟达最接近的。壁仞还需要再观察BR100的应用情况,因为受到美国商务部禁止,目前还没有看到具体的性能表现。Q:如果景嘉微和沐曦合作,是否能获得长足的进步? A:应该可以。首先,这两款产品的底层架构是GPU,景嘉微是传统GPU,沐曦是GPGPU,存在互相借鉴的可能性。如果景嘉微采用了沐曦的产品和技术,那么就能从传统GPU市场一下跃升到AI市场。Q:AI芯片的门槛应该是非常高的,为什么会有这么多初创型的企业涉足这个领域? A:首先,AI芯片设计的门槛不是很高,比如GPGPU架构上没有什么高深的要求,而且很多核心部件、核心功能模块都有现成的IP,比如总线接口PCIE、内存以及内存控制器的HBM、DDR、GDDR。很多加速的组件都有现成的内容,可以用成熟的产品代替。所以唯一要做的就是把内部的逻辑加速单元整合起来,发挥对AI计算的优势,所以硬件上门槛不是很高,但是软件门槛很高。因为在小模型的时代,软件必须解决兼容扩大的问题,还要发挥硬件本身的设计性能。在大模型时代,就要做好对于一些框架的支持,所以我们认为设计AI芯片,从技术角度上来说难度不高,主要在于是否拥有整个软硬件的整体设计能力。根据市场上现有模型以及前景模型的内部架构需求,设计硬件的底层,这样才能实现效率提升。否则如果硬件完成,用软件弥补硬件设计的失误,那么就需要消耗很多的软件资源,硬件的效率也不能充分发挥。这些初创企业都是从硬件着手的,门槛并不是非常高。 Q:那这些企业是自主可控的吗? A:不是纯粹的自主可控,因为一些核心IP都是国外的产品,并且企业依赖台积电。Q:如果抛开流片不谈,只看设计方面,会不会受到美国限制? A:会,因为这里面存在几个核心的专利,比如PCIE,目前掌握在cadence和Synopsis这样的公司手里,都是美国公司。HBM基本上只来自于三星、海力士和镁光,如果美国商务部有禁令,这些企业都不能像中国企业提供产品。纯国产化在这方面的确没有相应的积累,所以会被美国卡脖子。 Q:海光是否能做到不受影响? A:第一个问题是海光在美国禁运产品名单中,所以海光投片只能通过第三方代理公司,导致投片价格会偏高、产能会不足。第二个问题是海光拿不到新一代架构的授权,限制了海光产品迭代,可能会与海外主流产品代差越来越大,这是海光最大的问题。 Q:海光当前的架构是买断的吗?A:对,这一代架构不会侵权,唯一要解决的是产能供应链的问题。Q:昇腾、寒武纪、沐曦这三家企业会不会涉及到海外侵权的可能性? A:昇腾不涉及,因为昇腾涉及的IP都是买断的,但是昇腾面临下一代产品更迭的问题,新一代IP没法拿到海外厂家的支持,所以昇腾全部的IP都需要国内的替代,但是国内目前还非常不成熟。目前昇腾 920和昇腾910差距不大,只是生产工艺使用了中芯国际的14纳米工艺。沐曦目前不在美国商务部的黑名单中,用的很多核心是国外的厂家的,所以如果沐曦严格遵守美国高端芯片的条款,短时间内不存在风险,还是可以用国外的IP和台积电。 Q:中国的算力芯片对于美国的英伟达巨头来说,是否还有追赶的可能性?差距是否在缩小?A:差距在一点点缩小,但是缩小的难度会越来越大。如果英伟达仍然保持每十个月发布一代产品,对于中国厂商来讲,可能差距会慢慢增大。因为硬件的迭代投入是巨大的,风险也很高,中国厂商没有雄厚的资金投入,所以追赶有一定的难度。所以如果英伟达产品发布节奏不变,那么这个差距可能会越来越大,尤其是在美国商务部存在很多禁令的约束情况下。 Q:英伟达的CUDA在未来AI算力芯片中是越来越重要还是不重要? A:在小模型上CUDA仍然很重要,但在大模型上它的地位越来越轻了。如果未来中国市场以小模型为主,那CUDA还是有很大的影响力,而如果是以大模型为主,对于CUDA的依赖就越来越小了。Q:能否简单介绍一下为什么大模型对于CUDA的依赖小? A:大模型底层基于transformer的架构,增加参数和层数。而transformer是完全基于框架实现的架构,并没有使用CUDA的特殊算子,所以不需要必须兼容CUDA。而小模型早期都调用了CUDA的算子,所以是绕不开CUDA的。