寒武纪专家交流20230425 Q:寒武纪590目前情况? 590去年就完成所有的测试验证,去年Q4已经开始小批量生产,也备了一些货,然后就上实体清单了。之后台积电就把590的供应就全部停掉了。今年通过第三方代理的方式准备重新再开一遍流片,重新把这个供应打通,目前进展还是蛮顺利的。 目前一边在进行后端物理版图的修改,一边通过代理跟台积电在做合规材料的审核,基本审核完后端物理版图也修改的差不多了,这个过程大概持续2个多月。 今年Q3初会去流片,台积电7纳米流片大概需要4个月,年底之前能拿回来工程样片。之后再做封装、测试、可靠性验证等,大概还需要4个月。 差不多到明年Q2,590就能恢复整个供应了,这是目前的进度情况。 Q:中芯南方那边是不是给我们590的产能了? 590不会在中芯南方那边做,时间上来不及,因为换了晶圆厂,整个验证周期就会变长,原来10个月能解决的事,换了中芯南方可能需要一年半,多8个月时间,对于我们验证周期太长。短期不是一个好的解决方案,因为我们客户就等着要590。 我们在中芯南方计划是:明年Q3左右流片590的下一代产品(叫690或790),对标英伟达H100。先是工程流片,流完之后做测试验证,量产的话,再多个半年时间,差不多到明年年底or25年Q1,就会批量下单了。 Q:中芯南方那边不是说7纳米光刻机已经买回来了,说明年上半年有13-14台,谈谈具体情况呢? 我们590下一代产品去中芯南方的时候,他们那时产能一个月差不多1.5-2万片,一月给寒武纪2000片没问题,但估计寒武纪用不了那么大的量,如果后面需求呈爆发式增长,也不好说。只是按往年经验,一年下6000片量已经很大。 Q:590我们在台积电每个月大概有多少量? 量的话我们也控制了一下,因为单位产品的价值量高,1片晶圆不算良率的话有80颗,算上良率的话有40颗。1000片晶圆就有4万颗,4万颗对应了能做4万张卡,涨价后1张卡卖8万左右,整个能卖30多亿。 1000片晶圆的量也算比较大了,我们按正常节奏,一年才下小几千片。590比较特殊,因为担心被制裁的风险,所以今年在下工程样片的时候,会多下一些。 以往工程样片可能只下200片以内,而590这个产品其实之前已经验过了,只是做了微调, 所以这次工程样片会下1000片。然后花4个月时间把整个验证流程跑通,然后明年Q2也会陆续下几个月订单,24年的目标是下5000片左右,然后把这些全部拿回国内,后续我们的 风险就降低了,即便后续我们代理被制裁了,我们也有6000片晶圆在手,对应24万张卡,可以产生接近200亿的营收,就够我们后面几年的销售了。 Q:最近客户那边测试结果反馈怎么样? 去年Q3之后,跟我们之前关系比较好的长期合作伙伴,590都送样了,阿里、百度、快手、字节、滴滴,服务器那边浪潮和曙光,算法那边讯飞和商汤,等。整体送样不到1000张卡。都有测试反馈,其他家主要是单卡反馈,百度、商汤和快手那边有集群测试反馈。 Q:据说客户反馈效果不错? 是的,当然参数量没有那么大。只看语言模型,跑下来性能达到英伟达A100的90%水平;如果跑二三十个模型的话,平均水平能达到70-80%。因为我们主要是ASIC架构,针对transformer之类大语言模型,我们在底层算法层面做了一些硬件固化,所以支持效果会更好一些。 商汤和快手那边是今年跑的,两家都上了多卡,100张卡以上的规模,跑出来集群效果还不错,他们内部觉得可以替代A100,或者同等级别产品。所以他们现在都有批量采购需求,包括百度。 百度是去年导入,今年开始测模型,今年测完模型后他们就有采购需求了。只是我们上了实体清单后,有点质疑我们供货能力,找到我们销售,想采购大几千张卡,问我们有没有?我们现在确实没有。所以目前给百度的答复是:可以提供小批量出货,百张左右可以出,上千张是出不了的。同样今年商汤和快手今年只是小批量销售了几百张卡。 今年手上确实没有多少备货,叠加今年政府还有两个大项目要交付。 Q:阿里、字节他们为什么只有单卡反馈,为什么不用集群来测一下? 因为他们还在集中精力搞模型,主要还是在A100上跑,他们实际上市有国产替代的需求,等他们把模型搞的差不多了,他们还是要回头来做国产替代,他们也怕受到英伟达影响。 Q:去年590备货了多少?Q1业绩能体现吗? 去年备货了小几千张卡,全是590。应该会体现在今年的营收里,Q1不一定能体现,政府的项目都在下半年交付。 现在送样的客户还没完全付款,且之前给到客户的价格都是没涨价前,6万多的价格。 Q:现在如果正式出货,可能会涨价,对吗?是一定会涨价,因为颗粒整个都涨了。我们现在手上的存货是芯片,现在去生产板卡,我们买的内存颗粒物料其实是涨价之后的,主要是HBM在涨。也是ChatGPT之后,算力需求爆发, HBM供应商就几个(三星、海力士、AMD),变的稀缺就涨价了。英伟达那边也在涨价,原材料涨,芯片不涨价毛利率就不能为维持住。 Q:下游客户有没有同时测试过其他家的国产芯片?有对比过吗? 商汤有用壁仞的BR100,但BR100没货,测了几块性能也不太行,软件也不太行,商汤后来也没再用壁仞的BR100。 商汤后来主要测的是华为昇腾和我们寒武纪。 华为昇腾19年就出来了,也不支持双精度浮点数,算力也没有寒武纪590强,所以跑集群的性能也不如590。 Q:如果整个行业需求起来,推理端寒武纪ASIC架构是不是有明显的优势? 是的,如果应用场景比较固定,用ASIC能做出来性价比最高的产品。同等算力、同等功耗的前提下,ASIC能把产品的算力发挥到极致。其他的架构,不管是GPU,还是FPGA,本身受限于它的通用性和FPE的设计灵活性,本身成本比较高。量越大,ASIC的优势越大,因为单颗成本低。 Q:BAT等一些大厂买了英伟达很多卡,因为英伟达是GPU架构,按理后面用到推理,他们性价比会比较低,他们怎么解决这个问题呢? 通常云服务中心、超算中心、智算中心,推理和训练都是分开的,用的不同的卡。目前国内互联网厂商里面,目前占主流的推理卡还是英伟达早起的T4(T4的性能和性价比还是很好的);后来英伟达出了A10,A10也有一部分销售;今年英伟达又出了一款L4,目前L4还没卖。 Q:有一种说法,大模型的推理用不了英伟达T4这种卡,有没有这个问题? 因为它互联带宽比较低,不能像A100一样做成大集成,其次推理端需求量大了之后,T4内存容量可能不够。但目前大模型有好几家,用户访问量同一时间不会特别多,因此这个问题目前其实并不明显。 如果后面大模型成熟了,toC端了,T4可能会用不了,但T4可以去做很多垂直领域的应用。寒武纪思元370,相比英伟达T4,内存容量和带宽都更有优势,去年发布之后,阿里、讯飞等客户都做了大规模采购。因为T4比较老了,确实会被替代。 Q:客户采购我们的产品,推理和训练会一起采购吗?推理端我们下一代是什么产品?去年南京项目,政府端的数据中心,就是把训练端的思元 290和推理端的思元370一起卖过去,帮客户整个搭建起来。 目前思元370是我们21年年底发布的产品,目前是推理端最新的产品。但我们内部也研发了一个思元370下一代产品,也是用了7纳米技术,它的算力比370要翻一倍,带宽也提高很多。 但这个产品也受到制裁的影响,现在没法批量生产,但它的优先级会比训练产品要低,因为我们现在最紧急的事情就是处理590的供应,因为现在客户就等着要训练算力,排着队要买,或者已经明确了有采购需求,我们要尽快解决这个问题。所以推理产品,重新打通,重新流会放到优先级会放到590下一代产品之后。推理端我们的370还能卖,且有一定的竞争力。 先把590搞定,再把590下一代搞定,然后在这个过程中陆续去解决推理卡的问题。 Q:思元370是上一代用来训练的那个卡吗?上一代训练是思元290。 370是训推一体,既能训练,又能推理。训练的话,它有128T的算力,跟V100(A100的上一代)的训练算力差不多,但我们主要拿370来做推理的。 Q:590也是推算一体的吗? 不是的,590其实支持推理会差很多,主要还是做训练用比较好。因为590底层固化的算法,还有很多生态层面的东西,主要还是支持训练为主。 Q:你说客户比较着急采购,主要有哪些客户,大概有多少量? 现在客户还没有下明确的订单,但是给客户送完测试样品后,客户测试结果收集完之后,我们销售那边拿到了客户的反馈,包括百度、快手、商汤、阿里、滴滴等都有590的采购需求。而且他们的采购的量都是千块卡,几千块卡起的这种量,加起来肯定是上万张卡起。我们现在手上没有那么多货,也不敢给客户现在就承诺,只能说等我们产能比较明确的时候再下订单。 Q:如果客户急着需要训练模型,这些客户还来得及等吗? 客户不想等,但也没办法,因为他们现在也拿不到A800和H800的产能,A800他们想拿到卡至少半年以上,夸张的话要一年。 Q:590下一代产品据说性能比H800还要好,有个说法吗? 算力应该是没有H800好,但是互联带宽比H800高。590下一代产品,原本计划用台积电5纳米工艺,这个项目去年就已经立项在做了,去年我们还试了5纳米的测试样品(用MPW的方式),但是做完之后没多久我们上实体清单,今 年通过代理去沟通,5纳米也做不了,所以我们只能在中芯国际用7纳米做我们590的下一代产品。 因为我们下一代产品,规格超过A100,即便我们通过代理,也无法在台积电流片。所以今年我们会通过测试样片的方式去中芯国际去试这个工艺,明年会去流片590的下一代产品。客户还是比较期待590的下一代产品,因为590测试结果也是超出了很多客户的预期。 Q:市场好像对我们寒武纪,或者整个国产芯片,还停留在没有一个产品能拿出来训练大模型的认知上? 是的,不仅对我们,对整个国产AI芯片都有这样的认知。 根本原因还是英伟达强大的生态壁垒造成的。从客户的角度来讲,如果没有任何限制,可以正常买英伟达的产品,就不愿意使用国内的产品。因为如果要使用国内的卡,就要进行生态迁移,生态迁移其实成本挺大的。代码的移植需要投人力去做,而且需要他们去学习新的生态,对他们都是额外成本。 如果没有强大的动力去做,比如用我们寒武纪or华为的产品,成本能节约很多;或者现在美国制裁你,你不得不用国产替代or备用方案,去保证供应链的安全,假设明年你连A800H800都买不到,算力就做不起来,大模型就没法向更深层次进化,可能你在这个领域就落后了。 Q:政府对我们国产替代是什么态度?有说对BAT等厂商都要有20%国产储备,有这种做法吗? 我的理解是政府主要还是约束政府部门的采购,比如要求采购国产化率要到60%以上;对商用企业约束力没有那么强,但是会有一个指导,告诉你为了安全起见,国产替代是一个趋势,因为现在大环境在这里。具体就看商用企业内部的自身的情况。 确实,我们也跟百度的工程师沟通过,百度今年的采购目标,国产化率就会达到20-30%这种水平,明后年还会再提升,这部分当然也包括百度自己的昆仑芯,但昆仑芯主要用在推理上,训练端还不太行。 Q:比如百度20-30%国产化率怎么完成?是通过我们寒武纪吗? 百度因为跟华为有大模型竞争关系,应该不会采购华为的产品。会找我们或者其他第三方芯片企业,假如壁仞能供货,可能也会找壁仞。 Q:国产化AI芯片公司,目前竞争大概是一个什么水平?能不能排个序? 梯队排名而言,比较看好有批量生产经验的,有规模化出货经验的企业。比如我们寒武纪 590、华为昇腾910、遂原科技邃思1.0和2.0、百度的昆仑芯——我比较看好的是这四家企业,排在第一梯队,至少技术积累足够,软件生态层面,要实现规模化出货,本身生态层 面肯定是做的比别人要好的。 其他芯片初创企业,比如壁仞、灵汐、海光等要靠后一些,因为他们的产品大部分还在回片测试阶段,还没有规模化出货的测试验证,客户端也没有详细的规模化测试结果。