热门搜索：

AI算力机会解读电话会纪要–20230327

2023-03-28未知机构巡***

一、问答环节 Q：英伟达GTC大会的看点？ A：芯片：生成式AI爆发，英伟达在硬件方面推出一系列配置，尤其是基于ARM架构的GraceGPU。公司推出一种将CPU和GPU放在一个板子上的产品，一个服务器里可以进行两路运作的服务。围绕Grace及H100NVL，公司推出4款针对推理场景的产品，预计随着模型的成熟，后续推理市场有巨大增量（有望达到4倍以上），公司进行了硬件方面的升级。云服务：公司宣布名为DGXCloud的云服务，之前是云厂商预测市场规模，搭建GPU云图然后找上游厂商商谈价格，之后部署并将云的能力进行定价售卖。北美在两个月内出现了500余家AIGC公司，基本都是一百人以下的小公司，没有能力建服务器去做训练、也没有太多人员管理系统，更多会是直接购买云市场的能力，而预计云厂商对市场的反应较慢，英伟达希望直接提供一些网络互联服务，即借用云厂商的能力进行。例如在开放的云接入平台直接接入算力资源，一些模型等都可以搭载在其上供客户使用，这样中小型AI创业公司就不需要在基础设施上投入过多人力，能够降低成本。目前基于H100八卡配置的典型训练主机的单月租金为3.7万美元，中小厂商成本可控并且接入方便。计算光刻库：英伟达发布计算光刻库，可能对全球诸如 CSMC、三星等后续的技术都有重要影响，因为2nm之后光刻光掩模的制造成本非常高，需要非常多CPU计算数个小时才能完成。计算光刻库搭配GPU可以把光眼膜的生成过程提速40倍，例如从两三个星期压缩到8个小时，台积电可能6月份就要用这套系统进行试制。 Q：GPT-4所需的算力需求有多大？ A：目前没有公开数据，GPT-4是多模态模型，预计计算规模参数可能增长到了大概2万亿（GPT-3.5是2100亿左右）。ChatGPT是基于上一代A100训练出的，用到的GPU将近2万张，GPT-4对算力要求大概也在这个规模，训练时间在2个月左右，大致在去年9月份完成训练。其他厂商也大概需要几千张A100类似的卡来训练。 Q：A800、H800和A100、H100的差距多大，能否满足国内大模型训练，目前国内对A100、H100的需求如何？A：去年A100被限售，英伟达大概用两个月推出一款定制版A800，A800相对A100来说互联带宽从600G减到了 400G。对于大部分训练模型来说，互联性能只有个别百分比的下降，因为模型的计算和通信是并发的，而大部分时间通信达不到峰值带宽，受到限制较少。H800产生影响较大，因为H800双精度算力被剥离，在科学计算类应用价值降低。AI算力主要用半精度以及更低的INT8、 INT16之类的算力，这部分算力受到影响不大。A800还在国内主要服务器厂商的验证阶段（去年11月底才拿到），预计二季度服务器才能量产发货，才会有一些相对规模化的测试去验证其性能差距。A800目前还是比较好的选择，对它的需求也较大。Q：英伟达推出云服务，是不是意味着有大模型计划的公司，完全不用自己部署服务器，可以直接用云训练？这块业务会不会和微软、谷歌云等有竞争？ A：云服务方面，北美很多初创公司的总体需求规模并不大，例如美国一家独角兽公司Midjourney上半年推出第一款生成图像的模型V1只用了128张卡、16台机器，已经推出了第五个版本。预计这些企业本身训练规模就在一两百张卡的规模，中小公司直接购买DGXCloud云服务用于训练比较划算。他们和英伟达云领域客户会有冲突，但是分成模式目前还不知道，DGXCloud首先在OracleOCI落地，Oracle在北美的云厂商中远远落后于亚马逊、微软和谷歌云，Oracle自身也没有过多AI相关业务，中小用户选择它更放心。英伟达这种部署方式应该需要和云厂商分成，如果分成合理云厂商也不会排斥。 Q：光刻计算技术，会减少CPU服务器的需求吗？ A：光刻计算会提高2nm及之后的良率并降低成本，已经得到台积电认可，该项技术在高端制造方面会带来大量收入，大概每年几亿的收入规模。Q：国内厂商训练芯片的能力，与国外的差距有多大？ A：目前AI领域的公司80%以上基于Facebook的PyTorch框架，例如许多应用在前几代已经在加速卡上有非常成熟的使用，迁移到新的算力平台上只需要结合新的加速卡进行编译就可以使用，但切换了其他厂家的话，框架下所有的加速库（包含SDK的API以及地下驱动层）都需要做非常多的适配工作，会导致难以迁移，软件生态的差距会更大。考虑训练场景的情况下，国内厂商总体差距较大，大概分为以下几个维度：第一，训练场景是多机多卡，同时显存的容量需求很大，GPT-3最少需要200多台84G的网卡，需要在单机里先做多卡互联，然后做多机的网络互联，类似INT8、INT16或 IP16的能力拓展。第二，单卡的显存容量以及跨卡之间的互联带宽，英伟达互联带宽达到900G，国内做三卡四卡互联的厂商带宽基本在200G-500G之间，互联带宽方面存在差距。此外国内芯片大多是32G显存，英伟达达到90G显存以上。第三，多栖互联方面，英伟达在2020年收购了Mellanox（高性能网络领域大头，已经是高性能网络技术的独家供应商），英伟达跨GPU互联结合的技术在业界没有竞争对手。国内做AI算力加速卡的公司没有专门的网络卡帮助跨卡加速，华为有类似100G的以太网网卡芯片和交换机，以及一些基于以太网的无损以太网加速技术，它在带宽和性能上比较接近英伟达的跨卡互联。寒武纪等公司还是声卡玩家，而不是系统级别的互联玩家，基本上只能沿用市场上已有的以太网互联技术，技术方面相差5、6倍的性能，差不多是1.4微秒和7、8微秒的差距，对大规模训练的影响很大。在可见的应用场景下，英伟达是真正商业化可行的，其他厂家目前能力尚达不到。 Q：英伟达禁运情况？A：美国有两个层级的禁运，一方面最高配置的A100和H100不能发给大陆和香港市场，国内只能买A800、 H800；另一方面国内有些厂商进了实体名单，美国芯片技术供应商不能和其合作。Q：英伟达自动驾驶芯片的进展、合作、价格等情况？ A：英伟达每个版本的GPU会针对自动驾驶领域出一个定制版本，一般是一个ARM加上一个GPU芯片，国内有几款新能源汽车已经部署了智能驾驶相关芯片，英伟达在这块的市场份额较小但是增长速度很快，从前年的5.9亿美元左右增长到9亿美元，国内蔚小理等都在使用英伟达的自动驾驶方案。 Q：A800、H800价格情况？ A：A800训练服务器主要是四卡或者八卡配置，和传统的插卡方式不同，它是一块整板，每一个GPU像芯片一样贴在整板上，外加一个很大的散热片，因此看起来像CPU。每一颗GPU价格在1.5万美元左右，一块整板的价格在12万美元左右。英伟达原厂的主机官方价是20万美元，发到中国地区加上税收基本是近200万人民币。对国内合作伙伴来说价格在130万人民币左右，主要是为了保护合作伙伴的利益。英伟达主要是给业界一个设计参考，并留出足够的差价空间展现出合作伙伴的性价比，不过有些土豪客户还是会买英伟达的原厂主机。H100的官方价格在3万美元左右，但是性能提升3倍以上。 Q：英伟达订单量是否有显著变化？ A：全球厂商都在加单。微软加单很多，一些小厂商也计划投入6000、7000张卡让英伟达给一个报价，不过这些单可能不会都体现在一季度，国内出货会有本土渠道商备货以便平滑每个月的收入。从去年的数据来看，国内数据中心GPU卡加起来近50亿美金，网络加GPU一定会在50亿美金以上，A100实际销售量在上一个财年带来15、16亿美金的收入，在ChatGPT出现之前国内厂商买的基本是 A100这代的低配版（A10、A40等），因为低配版已经可以服务于已有的应用场景，A800等高配版的需求相对较少，但每家也大概是几千张。低配卡的价格很多在50万以内，T4两卡的服务器会在40万以内，只要看里面配了几张卡就有一个价格区间了。现在要做大模型的话，训练和推理对高配卡的需求大幅增加，低配卡在显存上都不能满足需求；另一方面需要提高存储力，一秒内尽量出30、40个任务的存储力，这样就可以服务于更多的用户。 Q：国内软件生态方面差距多大？A：国内软件生态没有形成协同。华为基本上每个环节都有能力做，但是用户太少，昇腾不能投片，客户如果要用华为云必须使用华为的编程方式和框架。此外华为和国内一些超算有合作，例如中标深圳鹏城实验室的项目，另外有半免费开放给一些国内研究机构以便应用于科研。百度、阿里都有自己的产品，华为应该已经进入前三。其次是百度，但是百度缺乏一些网络方面的能力，基本所有厂商目前都只是一个单卡，生态方面还存在很大差距，两三年后应该会改观，总之使用便捷、成本低是主要被选择的原因。在推理市场，国内很多应用场景已经本土化，但训练场景还没有，训练场景复杂并且耗时长，需要使用成熟性能好的产品，推理场景在未来模型缩水后会变得非常轻量级，一个单卡、不高的算力、几个G的显存就可以做，门槛不高。 Q：H100的平均算力成本会降到什么水平？ A：GPT-3.5推出的推理成本远远低于市场预期（市场预期 1个token的成本在2美分以上，但它只需要0.26美分），GPT-4的成本又大幅提升，主要是因为单次输入输出的容量变大了很多，并且每一代产品推出后，早期的均摊成本会比较高，到了后期一定会降低。GPU算力卡的算力成本均摊到4年的使用时间内并不高，主要成本在算力的存储率、单位时间内的功耗成本，它们基本是固定的，每一代算力提升对功耗效率和存储率都会大幅提高。GPT-4的生成规模大，这会让存储率显著降低，唯一能做的就是把访问次数做限制，让访问均摊开，防止突然无法反馈用户问题。 Q：微软是否有新增需求？ A：微软1月份下单的既有A100也有H100，上周微软宣布可以支持H100的计算，相当于H100处于刚刚上线的状态。估计目前主要使用的还是A100，微软宣布一年内会增加40亿美金的投入，把oﬃce365等都接入GPT业务，预计15亿美金会成为GPU卡的投资，因为服务器60%以上的成本是GPU支出，其他会有网络设备需求、人力、电力等成本。微软针对OpenAI第一轮投的20亿美金和后续的 100亿美金中很大部分就是OpenAI使用其算力券、云内的 GPU服务器的抵扣，而非现金。OpenAI在2020年开始一直使用微软云，微软过去几年买的GPU、网络等很多，其中很大一部分给了OpenAI使用。微软的oﬃce系统有几千万用户，每个月要付订阅费，嵌入GPT后订阅费会增加， bing搜索的市场份额还比较少不到5%，谷歌市场份额超过90%全球大概有二十多亿用户，嵌入GPT后bing的使用预计会增加很多。Q：谷歌云和英伟达是否有合作？A：谷歌云主要有两类，一类是谷歌自身的TPU，需要按照谷歌的习惯去编程；另一类类似英伟达的模式，直接按时间收费。谷歌和英伟达既有合作又有竞争，目前谷歌TPU主要是赋能自身业务，也有一部分卖云实力。Q：大模型在未来门槛会变得很低吗？ A：首先大模型门槛很高，算力算法模型都具备的目前看也就10家。未来可能会出现模型行业，例如大厂做一些分行业场景的应用，这些是toB的，地图或者oﬃce这种是toC的，toB场景未来会很多，因此会出现专门的模型生产厂商，产生轻量化模型部署到企业的私有云里赋能企业业务。对于绝大部分AI玩家基本是在应用层进行优化，小公司不太可能建立云厂商等设施，英伟达的模式对中小企业来说长期来看成本更可控。Q：英伟达和国内供应链伙伴合作的关系如何？ A：GPU方面国内浪潮是领先的，浪潮甚至压过北美的 DELL等厂商，国内其次是新华三，然后是超聚变、宝德、联想等。云厂商的合作伙伴会变，但是相对份额在过去两年比较稳定。中国的服务器公司有两家是国际化的，浪潮和联想，他们在北美有研发中心，可以针对北美的客户发北美机型，但是发给国内的只能是H800。 Q：H100和H800在训练模型之间的差距？ A：客户方面基本用同一种芯片去训练而不是混搭。训练任务固定的情况下，H100会比H800时间快，如果要让时间一致那

点击免费查看完整报告

你可能感兴趣

AI算力机会解读电话会纪要–20230327

你可能感兴趣

稀土指标解读电话会纪要–20230327

【中泰TMT】华为盘古大模型解读电话会 –20230327

消费投资齐发力，拉动经济增长电话会纪要–20230327

东吴：消费-新经济系列电话会（二）纪要：新媒体营销产业专家解读行业机会：自媒体的广告变现是未来热点20200430

量子计算电话会纪要：AI算力的颠覆性力量-20240325