您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:AI芯片专家交流纪要–20230321 - 发现报告
当前位置:首页/会议纪要/报告详情/

AI芯片专家交流纪要–20230321

2023-03-23未知机构金***
AI芯片专家交流纪要–20230321

Q&A 1.国产云端Al芯片,若考虑功耗,和英伟达差距多大?功耗虽然也是云端芯片考量标准的标准之一,但云端芯片对功耗没有像边缘端芯片那么敏感。 国内外厂商在功耗上差距不大,都在300-400瓦的水平。即使有差距,也仅仅是十几瓦的差距,没有质上的差距。 实际上,功耗大小和芯片的架构有关:一般ASIC产品的算力更大,功耗也更大。寒武纪的产品是ASIC架构;昆仑芯是FPGA架构;英伟达是GPU架构。 2.既然制程提升会降低功耗,为什么寒武纪的芯片没有体现?因为其算力提升了。 正常情况下,7nm制程的芯片功耗会小于16nm制程芯片(因为电压低0.8VS0.75),但因为思元590的算力提上去了,整个功耗还是比290或 370要高。 所以,寒武纪的产品和英伟达的产品在功耗上差距不大。 3.所以,如果寒武纪能做出自己的CUDA,可以比肩英伟达?至少硬件上是的,但软件上不好说。 目前看,英伟达产品由于应用多、出货量大,所以迭代快,兼容性最好,软硬件结合做好。 比如,同等级别的芯片去跑20个Al算法模型,如果寒武纪的思源590PK英伟达的A100,可能590中只有几个主要芯片的功能和A100的差不多,大部分芯片的性能只能达到A100的70-80%。 4.不同芯片的客户情况是怎样的? 互联网等商用客户,采购的最多的Al训练芯片采购的最多的还是英伟达。其他公司中: 寒武纪:22年财报中可以看到,60%卖到智能集群,主要是政府智算中心;另外30%是其云端加速卡,卖到互联网等商用客户;10%卖给边缘端,也是商用客户 所 以最大客户还是政府。 昆仑芯:据了解,主要还是在百度的智算集群和服务器上用,以及国内企业、研究所、政府。因为自己就是互联网企业背景,所以还没有其他互联网企业去大量采购. 燧原:腾讯投的,邃思1.0和2.0的商用端出货不大,也有一些小的智算中心、科研院校采购。壁仞:其BR100目前还没有卖到客户端,还没有大批量出货,还看不到商用端情况。 总体上,国内芯片产品,商用端出货量都很小,主要依靠政府、科研院校采购,商业化和英伟达比,任重道远。核心差距刚刚也提到,就是软件生态上的差距。国内产品软硬件结合做的不好,实际效果可能只有英伟达的70%。 而且,英伟达已经建立了软件生态壁垒了,国内企业想切进去也很难,因为CUDA是封闭的,如果客户要换,很多代码等都要移植,要付出各种人力、资源成本 5.几家国内企业在先进制程代工资源的获取上的情况?目前寒武纪的思源100、270都是台积电16nm工艺,思源370、290、590都是台积电7nm工艺。 昆仑芯的一代是三星的14nm,二代是台积电7nm.壁仞的BR100也是7nm。 1300 晶圆制造上都是先进工艺。 封装上也先进,思源的290、590用的都是台积电CowoS2.5D,昆仑芯一代用的也是2.5D,逡思用的日月光的封装技术等。制裁带来了困难。 那么先进封装或先进制程都是发展方向。未来,先进封装会在国内先发展起来,机会比制程领域的突破更大。 6.效果上看,ChatGPT对芯片销售拉动似乎不那么大,那为什么市场把ChatGPT作为拉动Al的标志性事件?远期会有驱动?到底还有多少拉动?这一波ChatGPT的火爆体现的高性能计算芯片这一块是有些过热的。 ChatGPT的起来也并不是一夜之间的,也是经历了从transformer,GPT发展过来的,中间也经历了几次标志性事件,但ChatGPT带火了是因为其在应用端带来了更广泛的关注。 但对芯片端的拉动并不那么大。 需求端也未必有那么大,而且这种级别的投资规模也不是所有企业能承受的起的 未来,会带来短期需求的起来,能看到微软也投了100亿美元给OpenAl,谷歌等大厂也在投入。但并非不会带来整个市场需求往上跳一个台阶。总体看,这并非是颠覆性的,应该是Al应用端落地的一步,是NLP自然语言处理技术积累到一定程度的体现。 7.ChatGPT之后的应用有哪些呢? 目前最大应用是语言对话场景,国内百度也在做文心-言等产品。 原来很多产品是通过推理实现的,效果不好,比如电话客户一听就是机器人。但目前通过训练大模型做出来的方式更逼真。 未来,应用层面可以把现有产品做进一步提升(比如让电话客服听起来更像人),替代部分量大、重复性的事情。但创造性的事情仍然很难替代。 8.国内Al公司以做垂直行业的小模型为主,现在ChatGPT这样的大模型出来了,之后,会出现大模型向小模型渗透,替代小模型的情况吗?部分垂直应用可能会被替代,会受到冲击,但不会完全很大答案还不够完善, 目前大模型很多还是框架性的,更类似资料查询。 9.英伟达的核心优势和壁垒是CUDA软件生态,未来这个壁垒是深化?还是缩小?国内厂商会持续追赶,英伟达也会持续迭代。 我认为到一定程度,双方差距会缩小,国内厂商逐渐逼近英伟达的核心壁垒,这些大概10-20%的壁垒最难突破,一直维持,直到某个时点,比如国内企业取得了某项软件突破,使用了英伟达没有的技术等,实现弯道超车。但这种概率还是挺小的。 在这个过程中,国内企业也面临生存的问题,现在很多企业都是初创企业,需要接受市场的检验。按照以往半导体行业的发展轨迹,行业里会有合并,最终剩下几家巨头。这些也都是现在这些国内企业未来可能面对的最终活下来的应该是产品好、用户多的企业。 10.会出现一家独大的情况吗? 不一定,有些细分领域会有龙头,但未必能吃下场。 11.除了你上面提到的这几家,国内其他Al芯片厂商情况如何? 上面提到的企业虽然出货量不大,但都有批产了,在客户端也经过验证测试了。但其他很多企业很多还都没有实际的产品出来,还在测试阶段。国内企业基本都在设计环节,门槛其实并不高,但需要资金的持续投入。 7nm流片一次,投入好几个亿;云端先进封装项目,至少投入5-6。若是底层的修复,等同于重新流片了。所以这种项目基本上没有10个亿打底,落地是很难的。 另外,还有软件方面的投资。所以很多公司都在”烧钱”。 但是,即使不断烧钱做出来,还要看市场是否认可你的产品,难度很大。 12.ASIC在云端训练会成为主流吗? 确实,ASIC在做大算力方向是有优势的,而且整个训练端就是朝大算力方向在走。 那么会有疑问:ASIC是否会取代GPU?毕竟英伟达的架构就是GPU,而GPU就是现在训练市场的主流。我认为有可能。 目前能看到一种趋势:ASIC为了做好通用性,兼容更多模型,牺牲了一部分算力。相反的,GPU也在追求大算力,反而越来越像ASIC。所以,未来不好说是谁取代谁,至少目前能看到两者功能是越来越接近的 13.中国互联网云厂商公司自研AI芯片? 能看到,BAT都在做,比如阿里的平头哥。其中,百度的昆仑芯做的比较好,也用在自己的服务器上了。 所以大厂自研的优势是,可以快速部署到自己的服务器上,获得快速反馈,而如果用寒武纪等第三方的产品,可能反馈链路要厂。但互联网大厂自研也有问题,竞品肯定不敢用,这也是为什么百度要把昆仑芯独立出去。 14.海外互联网大厂有自己的自研Al芯片吗?有多少是外购英伟达的? 谷歌很早就布局了TPU了,且在谷歌自己的服务器端也有部署。但谷歌也买了英伟达产品,甚至份额高于自研。之所以如此,可能还是因为在有些应用场景下,为英伟达的产品会更好、成本更低。 这也说明,英伟达的产品在各方面确实得到了各方认可。 15.目前对于Al芯片需求测算,有些前提还是训练端ChatGPT的参数,那如果把ChatGPT和搜索引擎结合考虑,很多参数数据又会上好几个量 级。另外,现在使用这些产品的时候,仍然还有响应迟缓的情况,也意味着其实很多应用层面也还有提升的空间。如果把这些因素都考虑进去,是否意味着,我们现在还是低估了Al算力需求? 首先,搜索端的这种响应迟缓、挤兑情况可能不是训练算力能解决的,很多是推理层面的。这里需求一个是推理层面的算力需求,另一个可能是服务器端的需求。 比如阿里云可以在双十一不崩溃,那么服务器端CPU端的控制优化是很强的。而有时候我们抢火车票的时候却容易卡顿,是因为这个时候服务器端CPU察觉到推理层面的GPU处理不了这些问题,就会让我们的订单需求排队,依次解决。 所以一个云服务中,比如百度云中心、阿里云的数据中心,里面有很多大规模企业级服务器,CPU服务器也很汤 多,和GPU结合,结合后的最终性能,有些需要景处理,有些需要训练场景处理,每个层面的需求是不一样的。 但通过堆叠Al加速卡等硬件的方式去解决这些问题,也是有上限的。所以,如果未来很多人同时用ChatGPT要升级优化硬件,会带来一些服务器端的需求,比如推理卡的需求。 16.国内厂商似乎产品参数很好,但因为用户少,难以反馈迭代,软件生态建设的很慢,最后还是比不上英伟达的产品,陷入了一个恶性循环,那么破局点在哪里?确实,国内很多企业目前还是各自为战,自建软件生态。 破局点可能有两种情况: 1)有个公司的软件做好了,产品越买越多,接近英伟达了,就破局了。 2)把国内软件标准开放出来,用一个统一平台,各家企业都用自己的产品去试,完善这个平台。 第二种情况可能比第一种情况实现的难度要低,可以更快接近英伟达的CUDA,但很难看到进展,因为很多公司还是想建立自己的壁垒和护城河。 17.怎么理解OpenAl降价90%?是否推理端应用有很多时 方法去降低单次使用成本?比如你在使用ChatG候,如果问得是一个专业问题,其实不需要在几干亿参数里去寻找,可以缩小限定范围?我觉得成本降下来可能还是因为更多人用了,摊薄了成本。可能是销售或资本层面的改变,不是技术的因素。 18.是否更多算力应该集中在训练端? 是的。无论国内外,各种数据中心、超算中心,都是以训练为主。因为大模型应用更符合Al发展方向,以及我们的使用习惯。 19.英伟达的A10和A100到底有什么区别?虽然都是GPU的架构,但是完全不同的产品。 内部计算角度看,推理卡(A10)主要处理的是整形数据,推理场景中基本没有浮点数运算。A100处理的则主要处理时浮点数。性能上,跑的Al模型也不同。现在的ChatGPT等自然语言的基本都是训练场景下的。 简单概括,推理处理的是整形数据,训练场景处理更多的是浮点型数据。20.可否对比一下地平线征程J5、J6芯片和英伟达的Orin、Thor芯片?从绝对算力的角度看,目前国内还没有能达到英伟达Orin芯片的产品。 英伟达下一代Thor芯片的算力已经达到2000T,这个算力在ADAS中其实已经很富余了,因为几百T就够了。之所以提供这么大的冗余算力,主要是希望未来能把自动驾驶芯片和智能座舱芯片做一个整合。 21.同样是追赶,ADAS和云端芯片,国内哪个追赶的难度大?还是云端追赶难度大。 毕竟云端领域,市场已经基本习惯了英伟达的产品了但汽车不同,毕竟最大的市场在中国,国内需求量也大。国内企业也未必优先去用Orin,也可以用地平线等国内厂商的产品,ADAS场景对软件层面的需求也没有云端那么高,护城河没那么高。 22.国内浮点运算比较弱,如何做好? 浮点数运算的训练卡通常也是可以支持整形的,训练卡也可以去做推理,但是性能会打折扣,因为其更擅长做浮点数运算。但如果是整形的,是做不了浮点的。 即,纯推理卡是做不了训练的,就算做,但是结果会很差,训练的性能效果会很差。 在设计层面,ASIC更擅长大算力,若做纯训练的浮点数计算,推理会做的差一点,综合性能会差一点。但也不是国内做不了浮点数,在设计层面就要做好. 23.刚刚提到边缘端芯片的空间未来很大,特别是安防。但安防这一块其实很早就受到制裁了,现在有哪些国内企业跑出来了?边缘端和云端情况不同。 虽然安防芯片被美国禁了,但目前国内产品做的还挺好。海思2019年被禁之前,IPC占了50%以上市场,各方面性能指标都很好。 海思被禁后,有20-30家新成立的、做CPU芯片切过去做