您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:AI算力机会解读电话会纪要–20230327 - 发现报告
当前位置:首页/会议纪要/报告详情/

AI算力机会解读电话会纪要–20230327

2023-03-28未知机构巡***
AI算力机会解读电话会纪要–20230327

一、问答环节 Q:英伟达GTC大会的看点? A:芯片:生成式AI爆发,英伟达在硬件方面推出一系列配置,尤其是基于ARM架构的GraceGPU。公司推出一种将CPU和GPU放在一个板子上的产品,一个服务器里可以进行两路运作的服务。围绕Grace及H100NVL,公司推出4款针对推理场景的产品,预计随着模型的成熟,后续推理市场有巨大增量(有望达到4倍以上),公司进行了硬件方面的升级。 云服务:公司宣布名为DGXCloud的云服务,之前是云厂商预测市场规模,搭建GPU云图然后找上游厂商商谈价格,之后部署并将云的能力进行定价售卖。北美在两个月内出现了500余家AIGC公司,基本都是一百人以下的小公司,没有能力建服务器去做训练、也没有太多人员管理系统,更多会是直接购买云市场的能力,而预计云厂商对市场的反应较慢,英伟达希望直接提供一些网络互联服务,即借用云厂商的能力进行。例如在开放的云接入平台直接接入算力资源,一些模型等都可以搭载在其上供客户使用,这样中小型AI创业公司就不需要在基础设施上投入过多人力,能够降低成本。目前基于H100八卡配置的典型训练主机的单月租金为3.7万美元,中小厂商成本可控并且接入方便。 计算光刻库:英伟达发布计算光刻库,可能对全球诸如 CSMC、三星等后续的技术都有重要影响,因为2nm之后光刻光掩模的制造成本非常高,需要非常多CPU计算数个小时才能完成。计算光刻库搭配GPU可以把光眼膜的生成过程提速40倍,例如从两三个星期压缩到8个小时,台积电可能6月份就要用这套系统进行试制。 Q:GPT-4所需的算力需求有多大? A:目前没有公开数据,GPT-4是多模态模型,预计计算规模参数可能增长到了大概2万亿(GPT-3.5是2100亿左右)。ChatGPT是基于上一代A100训练出的,用到的GPU将近2万张,GPT-4对算力要求大概也在这个规模,训练时间在2个月左右,大致在去年9月份完成训练。其他厂商也大概需要几千张A100类似的卡来训练。 Q:A800、H800和A100、H100的差距多大,能否满足国内大模型训练,目前国内对A100、H100的需求如何?A:去年A100被限售,英伟达大概用两个月推出一款定制版A800,A800相对A100来说互联带宽从600G减到了 400G。对于大部分训练模型来说,互联性能只有个别百分比的下降,因为模型的计算和通信是并发的,而大部分时间通信达不到峰值带宽,受到限制较少。H800产生影 响较大,因为H800双精度算力被剥离,在科学计算类应用价值降低。AI算力主要用半精度以及更低的INT8、 INT16之类的算力,这部分算力受到影响不大。A800还在国内主要服务器厂商的验证阶段(去年11月底才拿到),预计二季度服务器才能量产发货,才会有一些相对规模化的测试去验证其性能差距。A800目前还是比较好的选择,对它的需求也较大。Q:英伟达推出云服务,是不是意味着有大模型计划的公司,完全不用自己部署服务器,可以直接用云训练?这块业务会不会和微软、谷歌云等有竞争? A:云服务方面,北美很多初创公司的总体需求规模并不大,例如美国一家独角兽公司Midjourney上半年推出第一款生成图像的模型V1只用了128张卡、16台机器,已经推出了第五个版本。预计这些企业本身训练规模就在一两百张卡的规模,中小公司直接购买DGXCloud云服务用于训练比较划算。他们和英伟达云领域客户会有冲突,但是分成模式目前还不知道,DGXCloud首先在OracleOCI落地,Oracle在北美的云厂商中远远落后于亚马逊、微软和谷歌云,Oracle自身也没有过多AI相关业务,中小用户选择它更放心。英伟达这种部署方式应该需要和云厂商分成,如果分成合理云厂商也不会排斥。 Q:光刻计算技术,会减少CPU服务器的需求吗? A:光刻计算会提高2nm及之后的良率并降低成本,已经得到台积电认可,该项技术在高端制造方面会带来大量收入,大概每年几亿的收入规模。Q:国内厂商训练芯片的能力,与国外的差距有多大? A:目前AI领域的公司80%以上基于Facebook的PyTorch框架,例如许多应用在前几代已经在加速卡上有非常成熟的使用,迁移到新的算力平台上只需要结合新的加速卡进行编译就可以使用,但切换了其他厂家的话,框架下所有的加速库(包含SDK的API以及地下驱动层)都需要做非常多的适配工作,会导致难以迁移,软件生态的差距会更大。考虑训练场景的情况下,国内厂商总体差距较大,大概分为以下几个维度: 第一,训练场景是多机多卡,同时显存的容量需求很大,GPT-3最少需要200多台84G的网卡,需要在单机里先做多卡互联,然后做多机的网络互联,类似INT8、INT16或 IP16的能力拓展。 第二,单卡的显存容量以及跨卡之间的互联带宽,英伟达互联带宽达到900G,国内做三卡四卡互联的厂商带宽基本在200G-500G之间,互联带宽方面存在差距。此外国内芯片大多是32G显存,英伟达达到90G显存以上。 第三,多栖互联方面,英伟达在2020年收购了Mellanox(高性能网络领域大头,已经是高性能网络技术的独家供应商),英伟达跨GPU互联结合的技术在业界没有竞争对手。国内做AI算力加速卡的公司没有专门的网络卡帮助跨卡加速,华为有类似100G的以太网网卡芯片和交换机,以及一些基于以太网的无损以太网加速技术,它在带宽和性能上比较接近英伟达的跨卡互联。寒武纪等公司还是声卡玩家,而不是系统级别的互联玩家,基本上只能沿用市场上已有的以太网互联技术,技术方面相差5、6倍的性能,差不多是1.4微秒和7、8微秒的差距,对大规模训练的影响很大。在可见的应用场景下,英伟达是真正商业化可行的,其他厂家目前能力尚达不到。 Q:英伟达禁运情况?A:美国有两个层级的禁运,一方面最高配置的A100和H100不能发给大陆和香港市场,国内只能买A800、 H800;另一方面国内有些厂商进了实体名单,美国芯片技术供应商不能和其合作。Q:英伟达自动驾驶芯片的进展、合作、价格等情况? A:英伟达每个版本的GPU会针对自动驾驶领域出一个定制版本,一般是一个ARM加上一个GPU芯片,国内有几款新能源汽车已经部署了智能驾驶相关芯片,英伟达在这块的市场份额较小但是增长速度很快,从前年的5.9亿美元左右增长到9亿美元,国内蔚小理等都在使用英伟达的自动驾驶方案。 Q:A800、H800价格情况? A:A800训练服务器主要是四卡或者八卡配置,和传统的插卡方式不同,它是一块整板,每一个GPU像芯片一样贴在整板上,外加一个很大的散热片,因此看起来像CPU。每一颗GPU价格在1.5万美元左右,一块整板的价格在12万美元左右。英伟达原厂的主机官方价是20万美元,发到中 国地区加上税收基本是近200万人民币。对国内合作伙伴来说价格在130万人民币左右,主要是为了保护合作伙伴的利益。英伟达主要是给业界一个设计参考,并留出足够的差价空间展现出合作伙伴的性价比,不过有些土豪客户还是会买英伟达的原厂主机。H100的官方价格在3万美元左 右,但是性能提升3倍以上。 Q:英伟达订单量是否有显著变化? A:全球厂商都在加单。微软加单很多,一些小厂商也计划投入6000、7000张卡让英伟达给一个报价,不过这些单可能不会都体现在一季度,国内出货会有本土渠道商备货以便平滑每个月的收入。从去年的数据来看,国内数据中心GPU卡加起来近50亿美金,网络加GPU一定会在50亿美金以上,A100实际销售量在上一个财年带来15、16亿美金的收入,在ChatGPT出现之前国内厂商买的基本是 A100这代的低配版(A10、A40等),因为低配版已经可以服务于已有的应用场景,A800等高配版的需求相对较少,但每家也大概是几千张。低配卡的价格很多在50万以内,T4两卡的服务器会在40万以内,只要看里面配了几张卡就有一个价格区间了。现在要做大模型的话,训练和推理对高配卡的需求大幅增加,低配卡在显存上都不能满足需求;另一方面需要提高存储力,一秒内尽量出30、40个任务的存储力,这样就可以服务于更多的用户。 Q:国内软件生态方面差距多大?A:国内软件生态没有形成协同。华为基本上每个环节都有能力做,但是用户太少,昇腾不能投片,客户如果要用华为云必须使用华为的编程方式和框架。此外华为和国内一些超算有合作,例如中标深圳鹏城实验室的项目,另外有半免费开放给一些国内研究机构以便应用于科研。百 度、阿里都有自己的产品,华为应该已经进入前三。其次是百度,但是百度缺乏一些网络方面的能力,基本所有厂商目前都只是一个单卡,生态方面还存在很大差距,两三年后应该会改观,总之使用便捷、成本低是主要被选择的原因。在推理市场,国内很多应用场景已经本土化,但训练场景还没有,训练场景复杂并且耗时长,需要使用成熟性能好的产品,推理场景在未来模型缩水后会变得非常轻量级,一个单卡、不高的算力、几个G的显存就可以做,门槛不高。 Q:H100的平均算力成本会降到什么水平? A:GPT-3.5推出的推理成本远远低于市场预期(市场预期 1个token的成本在2美分以上,但它只需要0.26美分),GPT-4的成本又大幅提升,主要是因为单次输入输出的容量变大了很多,并且每一代产品推出后,早期的均摊成本会比较高,到了后期一定会降低。GPU算力卡的算力成本均摊到4年的使用时间内并不高,主要成本在算力的存储率、单位时间内的功耗成本,它们基本是固定的,每一代算力提升对功耗效率和存储率都会大幅提高。GPT-4的生成规模大,这会让存储率显著降低,唯一能做的就是把访问次数做限制,让访问均摊开,防止突然无法反馈用户问题。 Q:微软是否有新增需求? A:微软1月份下单的既有A100也有H100,上周微软宣布可以支持H100的计算,相当于H100处于刚刚上线的状态。估计目前主要使用的还是A100,微软宣布一年内会增加40亿美金的投入,把office365等都接入GPT业务,预计15亿美金会成为GPU卡的投资,因为服务器60%以上的成本是GPU支出,其他会有网络设备需求、人力、电力等成本。微软针对OpenAI第一轮投的20亿美金和后续的 100亿美金中很大部分就是OpenAI使用其算力券、云内的 GPU服务器的抵扣,而非现金。OpenAI在2020年开始一直使用微软云,微软过去几年买的GPU、网络等很多,其中很大一部分给了OpenAI使用。微软的office系统有几千万用户,每个月要付订阅费,嵌入GPT后订阅费会增加, bing搜索的市场份额还比较少不到5%,谷歌市场份额超过90%全球大概有二十多亿用户,嵌入GPT后bing的使用预计会增加很多。Q:谷歌云和英伟达是否有合作?A:谷歌云主要有两类,一类是谷歌自身的TPU,需要按照谷歌的习惯去编程;另一类类似英伟达的模式,直接按 时间收费。谷歌和英伟达既有合作又有竞争,目前谷歌TPU主要是赋能自身业务,也有一部分卖云实力。Q:大模型在未来门槛会变得很低吗? A:首先大模型门槛很高,算力算法模型都具备的目前看也就10家。未来可能会出现模型行业,例如大厂做一些分行业场景的应用,这些是toB的,地图或者office这种是toC的,toB场景未来会很多,因此会出现专门的模型生产厂商,产生轻量化模型部署到企业的私有云里赋能企业业务。对于绝大部分AI玩家基本是在应用层进行优化,小公司不太可能建立云厂商等设施,英伟达的模式对中小企业来说长期来看成本更可控。Q:英伟达和国内供应链伙伴合作的关系如何? A:GPU方面国内浪潮是领先的,浪潮甚至压过北美的 DELL等厂商,国内其次是新华三,然后是超聚变、宝德、联想等。云厂商的合作伙伴会变,但是相对份额在过去两年比较稳定。中国的服务器公司有两家是国际化的,浪潮和联想,他们在北美有研发中心,可以针对北美的客户发北美机型,但是发给国内的只能是H800。 Q:H100和H800在训练模型之间的差距? A:客户方面基本用同一种芯片去训练而不是混搭。训练任务固定的情况下,H100会比H800时间快,如果要让时间一致那