核心观点: 1、服务器售价:限售政策前后服务器售价大幅增长(A800服务器:原来120w/台-后面拿货140-150w/台-现在流通市场甚至有200w/台)。 2、算力租赁:算力租赁基本是按年起至少1年,此前签基本不受涨价影响。 3、服务器订单到货情况:限售前下的订单,大客户影响不大,小客户有被单方面取消风险。核心观点: 1、服务器售价:限售政策前后服务器售价大幅增长(A800服务器:原来120w/台-后面拿货140-150w/台-现在流通市场甚至有200w/台)。 2、算力租赁:算力租赁基本是按年起至少1年,此前签基本不受涨价影响。 3、服务器订单到货情况:限售前下的订单,大客户影响不大,小客户有被单方面取消风险。 4、NV生态理解:比如讯飞星火大模型基于华为910B,为了大模型能跑起来,华为安排1000多人在讯飞帮忙转代码(以CUDA为基数的代码转为华为昇腾技术的代码)。 5、国内领先的推理卡包括昇腾和壁仞,其次是寒武纪和海光、燧原。 6、目前市场没有见到海外NV卡入境而出现批量锁卡的案例。 7、H800限售政策后,突击下单的NV卡最快也要3个月之后才能到货。一、专家介绍基本情况 美方注意到通过小芯片组成大芯片的方式维持高算力的技术,例如华为Mate60使用7nm具备的芯片封装技术,所以在此技术上增加了算力以及芯片密度的新限制。 对国内客户需要用到英伟达芯片的限制:禁令升级,新增芯片密度以及计算能力的限制。限制由原来仅针对A100、H100等数据中心芯片的限制,延伸到几乎C端零售显卡。 市面上大部分英伟达的高端芯片都在此清单,对国内客户采购英伟达芯片具有影响。采购规模比较大的客户,在禁令实施有效期内下单的影响不大,但是对中小以及下单金额和采购价格较小的客户,在交货方面的影响较大,可能面临英伟达谈单和取消订单的情况。 二、交流与问答环节 Q:政策将会在什么时候执行落地,留给国内厂商下单的时间还有多久? A:禁令是11月的,具体时间没有明晰,大概只给了国内客户一天的时间,实际上靠中美时差去下单。虽然书面期限一个月,但这个期限是公开意见征求的期限,没有太多的实际意义。特殊行业的订单能够获得美国相关部门的豁免,但是豁免范围会非常小。 Q:如果现在向英伟达下订单,是如期交付还是存在窗口期? A:英伟达现在交付的都是大体量订单,如期交付存在不确定性。合同是存在霸王条款,具体是英伟达取消合同是没有任何惩罚措施,目前处于一种垄断的状态。就目前看来,取消的可能性存在,但是大额订单基本上不会取消,取消的都是小额订单。 Q:会不会出现服务器抢购价格出现大幅上涨情况,涨幅比例是多少? A:禁令出来凌晨已经存在代理商坐地起价的情况,例如A800和服务器当天的涨幅在5%到15%之间,不排除甚至有溢价30%–50%购买的情况。 Q:目前服务器的价位能达到多少? A:A800服务器平价大概110-120万,后来拿货价是在140-150万之间。现在了解到的价格可能将近200万。 Q:目前算力租赁企业存在提价情况吗? A:目前情况是如果新租算力并存在算例,价格相较以往存在上浮,具体上浮多少还不清楚。但对于先前已经租赁的,签订合约的,价格变动是违约行为。 Q:英伟达后续质保会受到影响吗?A:维保不会受影响,技术支持和后续质保照常进行。 Q:关于算力租赁方面,了解一下目前国内的非合规的渠道,例如走私,在美国也很难查吗,禁令是否难以把渠道和需求彻底打击? A:是的,会有疏漏的商家各种渠道把货流进来,但是这些货每张卡对应的有一个地址的码,一旦联网用,总部是可以监测到,所以这些卡全部应用在在局域网上。 Q:算力租赁需要联网吗,还是能够在局域网上出租出去? A:两种都有,一种是算力租赁是纯局域网的,例如只面向几个客户可以实现在小的局域网里用。另一种就是公开的,任何地方的客户只要付钱都可以租。 Q:算力租赁是联网的多,还是不联网的多? A:国内目前算力租赁大头是联网的客户,但是相对分散,比如说高校科研机构会有算力租赁联网去用。以及有一些客户是封闭起来的,比如有些大学买了很多算力,但是这些算力放在数据运营商的机房里托管,也有一种方式是算力租赁厂商的,但是应用都是在局域网里去用,包括数据都是做加密的。 Q:卡上的码能够检测到使用IP,请问有这个英伟达根据异常IP做锁卡处理的技术路径吗? A:有,这是比较基础的操作,它算是GPU算力管理的功能,包括高端显卡也有这个功能,一旦卡出现在非正常销售的区域里,可以实现降频或锁卡的操作。但是现在市场上目前没有批量出现这种情况。 Q:国产的这些AI芯片,比如昇腾910B、寒武纪590、海光2号3号性能如何? A:国产的这几个大芯片目前基本上都在美国的管制清单里,因为FP16的算力基本上都超过了200,910B目前看单卡的算力应该较强,垂直应用能跑到900多。海光主打是相对英伟达CUDA生态的兼容度。寒武纪590通用性不太好,与昇腾有点类似,可以跑垂直行业里的模型,经过代码移植和翻译以后,参数达标,但是寒武纪590的问题是做训练差一些,做推理较好,昇腾910B做训练和推理都没问题,这两个共同的问题是通用性不太好,通用性指是大生态的,兼容很多在应用上跑不起来,需要经过转移。 Q:如果明年昇腾910B放量,例如从今年的几万片翻两倍或三倍,会受到禁令的相关的影响吗? A:华为目前对外界没有透露太多信息,但目前看比前两年好了很多,大问题已经解决了,明年10万片没什么问题,但这仅限于对华为来说,其他的厂商不一定。 Q:怎么看待显卡的涨价? A:高端显卡都已经下架,目前涨价基本是对小客户有价无市,大客户的显卡之前没有囤太多,所以涨价特别是大客户下单,目前只能通过其他的渠道去买,相对于A800和H800,显卡的涨价会更明显。 Q:已经签约的算力租赁客户不受涨价的影响吗? A:现在算力租赁基本是按年起至少1年,现在签基本不受涨价影响。例如对美国的禁令,如果是今天出来的,是昨天签的合同,算力租赁的价格基本一年都已确定,不会变。 Q:英伟达如果检测到异常地址,把卡关了之后,如果重新把卡放在局域网上能跑吗?A:目前这个情况没有批量出现,只是确定有远程锁卡操作和功能。 Q:A100和A800之间区别,限制的是通道数吗?如果再严格的话,是不是还是继续减那个通道数? A:对,把速度限下来。其实是单卡的算力没变化,主要卡的是卡电互联的通道数。现在通道数不限了,但管制整个芯片的算力,例如现在FP16 数值一旦过了200,可能就在限制范围内,基本上限制了做大模型训练的能力。 Q:英伟达的卡和华为的卡单卡算力是一样的,但是由于英伟达有NVlink,所以卡机互联的速度明显比昇腾高的,从单卡算力的情况,英伟达的限制版是否依然更具优势? A:是的,因为卡机互联有不少是英伟达的专利技术,与华为之间存在算力上的差距,但是更多的生态CUDA的影响很大。例如顾客买了华为整个910B的集群,例如前几天讯飞的星火大 模型,讯飞星火大模型全部都是跑在910B上的,为了大模型能够跑起来,华为堆了1000多人在讯飞那边帮讯飞去转代码,这个代价和成本是相当高的。不是说华为每一个客户都是能够承担这种人力方面的成本的,简单来说是客户不会写华为昇腾基础的代码,会写CUDA为基础的代码,因为华为这套函数要重新学。 Q:华为昇腾芯片的单卡算力和A100其实没有太多差距了吗?英伟达如果用NVlink做集群和华为自己做昇腾,比如以太网的协议去做卡间互联,英伟达跑一个月,华为要跑多久? A:英伟达如果是一个月的话,华为可能就要一个半月不到两个月这样的差距。随模型和参数的变大所耗时间是指数级的延长,但是时间越长,精度越差,模型越大精度的误差就会更大。对大模型来说种精度上的误差影响某种程度上问题非常严重。这也是为什么英伟达要把卡间互联Nviswitch不计成本的去做,就是为了保证大模型的训练精度。 Q:NV再出一个严格版的产品,是不是相对国内来说已经没有太高性价比了? A:这就意味着基本上英伟达以后给国内市场能够提供的,也就是能够做推理算力的芯片,做训练就太难了。 Q:那像国内立志于训练大模型的互联网大厂怎么办? A:大厂现在手上有的英伟达的卡,他们现在逐步下单,三年以后,下的订单全部都已经到货了,但是模型迭代也越来越大,手上的这些卡不够用了。 那个时候的市场情况会是:谁的国产训练卡能够跟英伟达原来存量的跑在一起, 谁的卡的市场落地情况会好一些。归根结底还是触达兼容的问题,卡可能要求的是你硬件本身必须得是GPU架构,大厂们目前是这样的一个趋势。那么对小厂商小客户们来说,可能就是最近两三年都不太能够拿到英伟达的卡。 Q:如何评价谷歌的TPUV5? A:严格意义上讲他就类似于华为,通用性不太好,把单个垂直方向的算力拉上去,能够把模型精度做出来。 Q:国内的互联网大厂只能走谷歌的这条路? A:对的,长期看的话也大概是这样一个趋势。国外也是这样的,国内有文心一言,讯飞也在做。接下来就是行业模型加服务的趋势,通用模型可能是一个底座,就是在这个底座上每个行业都可以把数据拿过来给自己赋能,行业模型实现盈利。 Q:关于英伟达远程控制卡的问题,如果卡可以在局域网、非局域网中运行,其实你只要放回局域网,它基本上跟以前的状态是一模一样的,能够物理的关掉这个卡,你的依据是什么? A:我没有见过实际当中说被锁卡或者是被降频的那个案例,也只是听英伟达的代理商这么讲。以您看到的具体的例子为准,可能只是降频,把卡挪到其他地方是没问题的,只是可能涉及到一个合法性的问题。 Q:NV锁卡的是一种情景假设,或者说某些人认为的极端情况,但是在现实中一个商业企业它应该不会遇到这种问题?A:正常情况下不会出现。但特殊的机构用这个的话可能会被重点进行监控;还有量和规模太大可能会被关注。Q:只是脱网的专门搞训练的话,其实NV也没有办法去监测? A:脱网的话,没办法监测。 Q:这一次可能对于代工企业的管制也会比更加严格一点? A:对,现在芯片生产,国内其实还是在韬光养晦。作为从业者我们也担心供应链问题,就是工厂不给生产了。但是AI的算力又是国家需要的,就不管从国家层面还是这个大的行业企业,最不济,用比较低的制成来把芯片做出来,无非就是芯片大一些,服务器大一些,然后耗电耗的多一些,但是还是能够把我国产的行业模型给孵化出来。 Q:禁令发出来以后,如果没有已有的存货的话,其实大家拿卡都比较难。那是不是其实可以反过来证明,现在手上有比较多英伟达算力的公司,其实未来还是会处于一个比较稀缺的状态? A:是的。 Q:顺着刚刚锁卡或者降频的这个话题,作为终端的用户有什么办法可以规避吗? A:这个操作我还没听说过,但是据我了解英伟达在做卡的限制的时候已经考虑的这种情况了。比如说不管是虚拟IP地址,或者说加个防火墙,这个可能没有办法改变硬件本身上边的一些设计。刚才提到的就是这种锁卡的情况不普遍,至少说没有大规模的出现,没有说把卡一下子锁死做报废。 Q:现在已经在使用的英伟达的卡在4到5年之后报废了或者需要更换的时候,他会遵循原来那样给你做替换,还是要新签一个采购报告? A:这些卡在保修期范围内坏了需要返修或者是换新。比如说你买了这张卡,保修期是一年,用到第11个月的时候,这卡坏了,然后那个要返厂,需要换新的,这时候可以给你一张新卡,你有11个月时间差存在。但是说超过一年你卡在出问题就只能修了。然后修不好的话,就只能报废,报废之后也不会换新的。 Q:推理端与训练端是相互借用的关系吗? A:训练端和推理端的卡不宜互相借用。训练端卡可以同时进行训练和推理任务,具备高算力和全面功能;而推理端卡仅适用于推理任务,算力较低,无法进行训练。它们之间存在包含和被包含的关系,即训练端卡包含推理端卡。 Q:明年可能会在应用端进行一个比较大范围的落地,推理端的算力可以保障吗? A:英伟达的T4卡是目前销量最大的推理卡。这种卡片通常被广