您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:无问芯穹夏立雪 - 发现报告
当前位置:首页/会议纪要/报告详情/

无问芯穹夏立雪

2024-04-16未知机构B***
无问芯穹夏立雪

无问芯穹夏立雪01 CUDA是英伟达的壁垒,推理场景是算力未来的重点 Q:从你的角度来看,上个月的GTC有什么值得大家注意的东西? 夏立雪:大概从2018年那一届GTC开始,大家的关注重点就都是英伟达最新的显卡是怎么样的,包括这次也发布了最新的B系列显卡(BlackwellB200)。B系列在 技术上还是有很多提升的,比如显存提升了小一倍;使用了新的PCIe6.0的协议;包括整 个互联的带宽都有非常大的提升。这说明随着技术的发展,英伟达仍然走在时代的最前列,并且可以说是非常坚定地去做更大的系统工 程。因为这些升级都是实实在在地面向「搭建一个更大的训练系统」这件事。 不过有些指标也确实存在可讨论的空间。比如有些新闻里面会提到有30倍的提升,这个目前还没有找到特别明确的证据,我们推测这个可能是在一些特定场 景上的数据,比如规模大到一定程度,它原有的H系列显卡已经产生饱和损失的时候,这个对比结果可能会实现30倍的提升。 我们目前看到的最核心的提升,还是B系列实现了两块显卡叠加在一起之后没有太明显的性能损失,实现了大概两倍的效果。 整体上这次发布会没有很夸张的那种「blackmagic」式的提升,但也确实证明了英伟达在ScalingLaw这件事上,扎扎实实做了很强的一些系统层面上的技术升级。 Q:前两天安克的阳萌就分享了一个观点。他认为,长期来看,英伟达还是有巨大的挑战和不确定性的,存算一体才是未来的希望,而这次的发布会完全看不到 这样对应的打算。这里面你有没有一些大家忽视的、非共识的发现? 夏立雪:其实英伟达之所以能够持续领先,一个核心的原因就是它现在用户非常多,所以他自己能够看到未来的方向,然后再把这个方向落实到自己的下一代产品。所以我们可以去分析它的一些新功能点,来看看它在想什么事情。 这次发布会我看到的一个点就是4比特(FP4)的浮点数被正式加到了B系列的功能指标上,这是在之前的H系列没有的。考虑到H系列的8比特数(比如FP8)还没有在训 练中被广泛使用,这个4比特一定不是为了训练大模型,而是为了大模型最终怎么推理落地、让更多的开发者享受英伟达显卡的好处而准备 的。所以英伟达也在考虑除了帮大家做一个更大规模的模型之外,是不是也能帮助大家去把模型在具体场景上更好地落地。 而且可以结合一下英伟达最新的财报,推理这个场景的收入已经占比将近40%,这件事其实是超过行业对它的预期的。之前华尔街预判训练和推理的比例是8:2,但是现在光靠英伟达自己就已经是6:4了。 所以无论是从英伟达已经拿到的实际回报的角度还是未来战略规划的角度,它都会更多地去支持推理场景的使用。 Q:传统也有很多优秀的芯片公司,比如英特尔、AMD;包括现在也有很多新锐的公司出现。为什么英伟达在今天能达到这么高的高度? 夏立雪:英伟达核心的竞争力,就是它永远知道下一代芯片做哪些指标,是能够为下一个时代的任务服务的。 那它为什么能知道这个?那就要说到它的CUDA生态了。在AI领域,这是英伟达最重要的一个壁垒。 每一个硬件都有一个接口,接口就相当于说明书一样,开发者对着「说明书」 来使用它的硬件。英伟达在很早的时候就投入了非常大的人力去打造它的CUDA开发生态,让这个说明书非常的易读,让所有的开发者都能很容易把英伟达的 硬件用起来。 所以基本从上一个AI时代开始,所有最先进的模型和应用都是在英伟达的CUDA上先跑起 来的。这样就形成了一个正向的循环,大家都会自发在英伟达的卡上开发自己的新功能,英伟达就享受了这样的红利。同时它的竞争对手还得 投入额外的人力把这些功能搬运到自己的环境上。相当于英伟达什么都不用干,竞争对手多做了一倍的工作。这实际上是英伟达最核心的壁垒,也是它能够在硬件上不产生代际领先的情况下,仍然能够保持「霸主地位」的核心原因。 当然这件事也不是完全不可撼动的,因为大模型出现了。 上一个时代的AI模型,针对每一个场景都需要去做一套自己的软件优化,比如卷积神经网络就 是用于视觉的模型;递归神经网络是用于语言处理的模型……这样大家必然会趋同于在同一个语言体系中去完成自己的开发。比如我现在用 CUDA积累出了一套东西,自然也会把里面一些共性的东西迁移到其他场景。这件事情实际上构成了英伟达CUDA生态的厚度,但是大模型把这个生态打薄了。因为大模型之间的结构差异没那 么大,我不再需要100种大模型了。大家更追求的是账算下来到底便宜不便宜。从这个角度来说,其他硬件厂商有了更多的机会。所以这也是为什么大模型出 来之后,像AMD、英特尔等都非常抓紧地发布自己的一些核心软件和产品,就是因为他们也看到了这一点。 02 中国的ScalingLaw是场景优势 Q:视角回到国内,还要面临一个算力天花板的问题。甚至前段时间有个朋友提出了一个特别悲观的观点:ScalingLaw在中国真的存在吗?因为ScalingLaw理论上需 要无尽的算力支持去通向AGI,但国内是存在算力天花板的,最后可能没有办法真正享受ScalingLaw这样的一个技术红利?你怎么看这个观点?夏立雪:这个词走到大众面前之前,他的源头是一篇OpenAI的论文。那篇论文的核心是说,当我们要去训练一个模型、做最佳预判的时候,遵循的规则是什 么?里面提到影响ScalingLaw的其实是有两个因子,不只是算力,还有数据。关于ScalingLaw的观点在OpenAI和Llama上已经碰撞过一次。Open AIScalingLaw的逻辑是用更大的算力和数据可以更有效地获得一个好的大模型,是 纯从训练模型的性价比角度来看的。Llama思路是模型最终要落地,所以这个性价比应该考虑到最终模型推理的阶段,那么以推理为目标,在一个「差不多可以 了」规模的模型上不断地叠加数据,最后得到一个数据层面上的ScalingLaw。这个画面 似曾相识。回顾互联网时代和移动互联网时代,部分技术起源于欧美,然后在中国做到了场景的爆发 。因为中国首先有最大的用户量和场景数据,我们也有非常多的企业和开发者能够把应用场景落地。所以我认为ScalingLaw在中国可以有另外一个解读,也就是应用场景的Scali ngLaw。假设我们先拥有一个达到基本水位的模型,并且把它赋能千行百业。赋能千行百业, 是不是就是在每一个行业积累优质的数据?有了新增的优质数据之后,应用到模型里,就能快速地让数据飞轮转起来。 可以说,算力ScalingLaw提升的是一个产业本身的产值,而场景的Scaling Law解决的是渗透率的问题,也就是如何把大模型渗透到各行各业去。这件事情我们是有优势的,可以有一套自己独特的ScalingLaw定义。 Q:对于国内的算力市场,你有什么长期的判断? 夏立雪:首先我们已经用脚投票了,就是为什么我们要做「MxN」这件事,就是因为我们认为算力厂商不只有英伟达一个。 当然现在国内算力市场英伟达依然占主导地位,但是我们也看到很多厂商,不论是我们合作的AMD还是其他的一些芯片厂商,已经逐渐具备了一定的和英伟达比较的能力了。 但大家所欠缺的还是所谓的下一个客户。就是没有人知道你能用,所以就没有人会大规模用你,然后更没有人知道你能用。 那怎么去解决这个问题?我们也告诉我们的模型伙伴,不要同时去做两个很不确定的事,模型归你,把算力的不确定性交给我,你先在我们Infini-AI上把业务跑通。我可以向你证明其他 的卡,也能让你把业务又好、又快,还省地跑起来。 我们和这么多芯片厂商关系都能保持很好,因为大家也需要我们来帮他们证明自己的实力;大家也需要我们的优化能力帮他做得更好;以及大家需要我们去做产业链的打通。 回到开头的问题,我认为当前还是以英伟达为主导,但是未来非英伟达的市场一定是存在的。Q:什么是多元异构算力?它为什么重要? 夏立雪:本质上还是因为国内的特殊生态。如果有足够多的英伟达芯片,那大家都去用英伟达就好了 ,但现在问题是英伟达的芯片不够用。 所以为什么要做异构?因为国内的生态还是比较分散,大家都有自己的一亩三分地要去耕耘。所以市场会较长期地持续这个状态:有很多选择供大家使用,同时这些选择又相对分散。 大家都不可能拥有足够多的英伟达芯片,所以不管是大模型的厂商还是做应用的厂商,都需要和很多 家芯片去做适配。那我们能不能把这些需求统筹起来,最终变成一个好用的服务给大家?相当于把每一个人都要做一遍的事情,我们帮大家做了。原来大家要做MxN次开发,但是无问芯穹通过自己 的平台,已经对接了M种模型、应用和N种芯片,那整个生态就只需要做M+N次适配就好,不用再形成浪费。 这个实际上也是中国算力市场特有的情况孕育出来的一个机会。03 推训一体是未来, Transformer架构不会很快被颠覆Q:怎么理解「推理即训练」这个观点? 夏立雪:这是很重要的一个点。我们如何理解人最核心的能力?有人说是会使用工具,但是猴子也会使用工具;有人说是社会分工,但其实蚂蚁也有社会分工。所以我理解人最核心的能力是持续学习,可以把智慧一代代地传承下去,不断地迭代,这是一个文明生长出来的基础。 我们现在训练模型的方式,基于现有的技术限制,是先预训练一个模型,然后再到对应的场景中使用 ,返回来的结果又能成为一个新的数据集,让模型得到迭代。就像软件升级一样,今天发了iOS13,明天升级成iOS14。 但实际上人不是这样,上午我考试做错了一个题,下午我就不会去犯这个错了。 所以一个理想的情况是训练和推理是一体的,我们在不断使用的过程中就能实时地把数据给到系统,然后系统当下就产生一个反馈。这种模式在互联网上一个时代的产业中已经实际运用起来了,就是广告投放系统。一旦你不点这个广告,它下次大概率就不会再给你投类似的广告了;一旦你点了某个广告,它就会马上知道你的喜好。 但是这套系统在当时能够被快速运用起来,是因为它算得过来账,整个训练和推理的成本能够支持系统7×24不断地学习、运行。 现在大模型就是卡在成本太高了,如果既有训练又有推理,整个成本是扛不住的。所以这件事情还停留在一个目标的状态,但我认为是一个很重要的方向。Q:某种程度上可以理解成,如果没有明确目标地修炼通用人工智能,这就是一个非常高成本的事情;但如果是目标非常明确地强化某个能力上的智能,可能就有不同的路径。 其实商业起到的作用就是这样的,过去只要商业的需求算得过账,这部分的技术就会快速发展。所以谁先产生商业闭环,谁的智能可能就发展得快,这个说法也makesense,不一定只看 算力的绝对值。 Q:除了GPU之外,还有哪些芯片解决方案,是你觉得值得看的? 夏立雪:我觉得首先英伟达代表了一种方向,就是GPU这种大规模的并行计算,在Transformer这个结构下,就是效率最高的一类执行逻辑。 像AMD、包括国内的一些厂家,也在做自己的类GPU的架构。我觉得这肯定是有很好的空间的。大模型依托于GPU的架构诞生,反过来GPU也因为大模型的增长而快速发展。Tranformer结构不会有很快的、本质上的颠覆,它已经吸收了人类绝大部分知识,再造 一个新的「神」和它「对抗」是比较劳民伤财的。所以现在没有人有动力去完整做一个新的架构来颠覆GPU。 顺着这条路来看,除了GPU架构之外,也会有人去做一些完全针对Tranformer结构的硬件,也是值得期待的。 Q:有人提到了SambaNOVA这家公司,就是顺着你讲的思路去针对Tranformer做进一步的强化,形成一个完整的体系。你看好这种类型的公司吗? 夏立雪:我们还是希望有更多人来探索的,这有利于行业的健康发展。 但这里面有一个很核心的问题,就是硬件的发展一定要和场景持续保持结合,不能真的闷声造核弹。大家在看硬件未来的发展的时候,一定是要看到它怎么能够有一个可规划的路径,能够不断吸收新的计算的范式,来实现硬件持续的迭代优化。 人工智能为软硬件的联合优化提供了非常好的基础。因为在上一个时代,很多任务的软硬件设计是分离的。但是因为人工智能的模型是可调整的,就可以在设计流