您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国金证券]:英伟达GTC:keynote纪要-20240319 - 发现报告
当前位置:首页/会议纪要/报告详情/

英伟达GTC:keynote纪要-20240319

2024-03-18国金证券张***
英伟达GTC:keynote纪要-20240319

这是开发者大会,会与很多科学描述、算法、计算机结构和数学。不同领域科学研究从气候、机器人、自动驾驶、人工智能都在参加这个会。参会的有IT的 ,也有非IT领域用计算机解决问题的。包括生命科学、医疗保健、交通运输、物流、制造业等工业,行业范围很广泛,下游市场涵盖了100万亿美元。行业都在被改变,电脑是最重要的工具,影响每一个行业。 我们1993年建立的,2006CUDA成为了革命性的计算模式,20年后我们认识到了这点,2012年AI和CUDA第一次接触,2016年 我们意识到计算模式重要性,建设DGX1达到170TFLOPS算力,DGX1给到了当时的openai。2017年transformer来了,22年gpt来了,23年genai出现了,全新的产业开始了。这样的软件之前没有,我们用电脑产生软件,产生之前没有的软件,是全新的分类,创造软件的方式和之前不同,在数据中心当中,产生token,产生大量浮点数,之前工业革命是建设工厂,输入电力 ,现在我们是新式的产出就是token,用AI工厂来制造。 新的软件、新的应用以及之后的未来怎么样,我希望展示我们的公司的灵魂。电脑图像、物理学、人工智能都集成在一个电脑创作的动画当中。我展示的都是模拟,是用人工智能制作的动画。加速计算达到了转折点,我们需要继续降低计算的成本,来支持可持续的越来越多的计算。每一个行业我们所接触过的 ,都产生了巨大的影响。这个行业用模拟来创造产品,不只是减少计算的成本 ,也提升计算的规模,我们可以做到产品完全数字化,制作、模拟、操作完全虚拟化的。 在这个过程当中有一些合作伙伴加入我们,让世界进入加速计算的世界。加速计算的基础设施是cudagpu,和genai的基础设施是一样的。Ansys是工程模拟,数字孪生发展的合作伙伴,在每一个系统、企业当中。Synopsys是我们第一个软件合作商,他们具备高水平设计能力,我们加速了光刻计算,制作芯片我们需要将光刻达到极致,我们有特殊的库做这块,我们帮助TSMC加速计算,他们也宣布使用我们的culitho,这样AI可以赋能半导体。Cadence建设了EDA工具,我们也用cuda加速他们的计算,他们客户可以做上百倍更大规模的计算。将Cadence和copilot一起做在一起,做到越来越多的copilot来设计芯片。 受益计算规模的还有LLM,transformer发明后,我们可以很快计算大规模的模型。模型每6个月就翻倍,我们需要达到计算的供给,参数也需要增加,训练的token增加。Openai的模型有1.8万亿的参数,需要数万亿token,1p算力的gpu也得计算1000年。我们需要更大的GPU,我们把一堆gpu集成在一起,创造了nvlink和tensorcore。DGX1是我们第一个版本,我们一直迭代超算电脑,2023年我们做了最大的AI超算EOS,我们也帮助全球都建设超算。我们提供网络、GPU、系统,千万个GPU平衡能效和计算。我们看到了gpt的奇迹,我们仍然有很长的路,有更大模型,有更多的形态的数据,有表格、图像、视频。就像我们从看电视也能学习,模型也可以靠视频学习。这些模型会有常识,看全世界的视频,结合全世界的语言。我们将会有AI训练AI,都会增加模型大小,我们会建设更大的GPU,Hopper很好,但我们需要更大的。 我将介绍一个非常大的GPU,blackwell。B100GB200.NVL72。Blackwell是一个系统,我们确实制作GPU,但GPU不像过去一样了 。Hopper改变了世界,blackwell比Hopper更大。2080亿个晶体管,有两个小的die集成为一个。10TB/s的带宽,没有内存的问题,是一个巨大的芯片,将超过物理的极限。可以做成两种系统,第一是兼容Hopper的系统,可以直接替换GPU卡,软件、热量都一样,是HGX类似的版本。第二种是更昂贵的graceblackwell系统,有两个blackwellchip,连接到gracecpu,有很快的chiptochip连接速度,具备memorycoherent,可以一起工作一个应用。板子上面是nvlink,下面pcie。 还有更多的spec很好,有很多的特点,推进物理极限,我们创造了新的transformerengine,可以rescalerecast数字到更低精度,AI是关于概率的,可以保留必要的精度,我们设计了ALU,在成千上万的GPU计算当中保证收敛。我们有新的nvlink,有很多GPU连接时候,信息互相共享,有很快的连接,可以进一步放大实际的算力。超算在运行当中,有很多部件都在工作,如果可以检测早期的弱点,就可以重新开始一个process。我们加入了可靠性引擎,可以自检每一个blackwell芯片的gate、memory的。 我们做到更安全的AI。AI的代码内嵌在其参数当中,我们可以加密data,计算时候再可信的环境。计算很快时候,这个很关键。我们可以20倍之前速率传输数据。这些可以让blackwell一直保持高负载工作。 相比Hopper,2.5倍fp8训练单芯片算力,加入了新的fp6,内存可以存储的参数更多,带宽更多,对推理很重要。使用AI时候,让AI创作图像时候,是GPU在创作token,就是推理,但其实就是在generate,过去都是prerecord的内容推荐给用户,在未来,内容不再是prerecord的,如果AI可以理解用户,可以产生用户喜欢的内容。未来是生成的,我们做事情的本质不同了,我们生成了一个生成AI的GPU。我们推出了支持fp4的算力,较Hopper有5倍算力提升。 我们还有更大的GPU,在过去八年,我们增加了1000倍计算能力,个人电脑性能是五年增加10倍,十年100倍。但过去十年我们算力提升了1000倍。我们建设了另外一个芯片,Nvlinkswitch,有500亿个晶体管,有1.8TNVLINK,我们可以让每一个GPU都和其他的GPU全速连接,这非常重要。这是更好的能效。依靠nvlinkswitch,我们可以让很多GPU结合为一个巨大的GPU。 GB200NVL 72也很重要,是现在DGX的形式。6年以前,DGX我一个人还举的起来。我们把第一个DGX给了openai,我们还在上面签名,当时算力是170TFLOPS,就是0.17P算力。现在我们做到了全球第一个可以做到一个AI系统的rack。整个系统的NVLINK总带宽达到130TB,有5000个nvlink电缆,总共2英里,如果用光模块,光模块和retimer就需要20kw的能耗,我们依靠nvlinkswich和电缆可以减少这20kw的能耗,能耗降低可以让进去的温度25度,出来的45度。 现在GPU总共600000万个零件,3000磅重量。训练gpt模型时候,用25000个A100得3~5个月,或者8000个H100需要大约3个月时间,15兆瓦电力,用blackwell,只需要2000个GPU90天完成,只有4兆瓦的能耗。我们减少成本和能耗,可以继续扩大计算的大小。 推理和生成对未来很重要。产生各种各样的东西。推理很难做对LLM,因为LLM很大,不能一个GPU来做计算,需要俩甚至很多GPU来跑。未来是万亿级别的参数和token的chatbot以互动的速度来交互,需要很多GPU来计算,需要吞吐量,也需要每秒产生token的速度。两个结合起来互相影响,需要很大的searchspace。优化的算法来把巨大规模模型分散到各个GPU当中,我们有CUDA。 Blackwell的推理相比Hopper,我们创造了支持万亿参数的AI的产品,GB200达到了30倍Hopper的能力。对LLM,我们做了更大的芯片,我们用fp4tensorcore新的transformerengine达到了,以及NVLINKswitch有几乎十倍的之前最快网络的速率。未来数据中心是AI工厂,AI工厂是为了创造收入,创造智能,推理能力很重要。 2年前,我们推出Hopper时候,我们有了两个CSP客户,现在我们的客户很多了。blackwell将量产给到各个AI客户,OEMODMCSP 地区云和世界各地都将使用blackwell,blackwell是我们最成功的产品。AWS将建设第一个有安全AI的GPU,用于包括建设数字孪生,加速亚马逊机器人、AWShealth。AWS非常倾向AI 。谷歌也会用,之前就用过我们很多GPU,gemini将使用来优化。Oracle将使用。微软将使用,部署在azzure。整个行业都会用blackwell。 每个公司都会用数字孪生,帮助公司实现很复杂的事情。建设数字孪生来设计电脑也可以,比如纬创用数字孪生在CAD过程当中将模拟数据集成在一个数字视图来优化,工作人员效率提升51%,工厂上线时间从5个月减少到2.5个月,缺陷率减少40%。 我们可以将所有的好的想法都放在数字世界当中。过去我们用软件识别图像,很多的数据最后变成一个单词比如一个猫。在生成时代,我们反过来可以创造任何的猫。用一个单词创造成千上万的像素。我们可以理解文字、视频等,不只是认识。我们可以数字化很多东西,类似蛋白质基因 脑电波等,了解他们的结构,我们可以生成类似的东西。我们也可以用来学习气候、极端天气,我们如何预测未来气候。极端天气带来1500亿美元的经济损失,我们可以预测气候,用genAI预测AI,并且有很强的能力。传统追踪台风的模型只有25km分辨率,NV用genAI模型,达到更高的2km的精确度,并且相比传统气候模型,具备1000倍速度 ,3000倍能效。我们和theweathercompany合作,达到更高分辨率的气候预测。 NV healthcare,基因、计算化学、医学成像都有计算的支持。数字化基因、蛋白质、氨基酸,可以通过机器学习理解生命。之前世界只数字化了20万种蛋白质 ,但alphafold一年不到就重建了2亿种蛋白质,几乎所有蛋白质都被排序了。新药物需要筛选,是很难的问题,NV启用新的筛选范式,现在可以几分钟生成目标分子,创造高质量药物分子。更快创造成果的药物。 计算机视觉模型很多,但使用时候很难。推理是很大的计算问题,如何对每一种算法做优化,我们有很好的想法。我们发明了新的操作软件的方法,我们叫做container,也叫做nvinferencemicroservice(NIMS),是pretrained的模型,是prepackage的模型,其中打包了很多的开源的预训练模型,还有cudacudnn等。取决于1个GPU很多GPU,做了优化。NIMS和一个API连接,让使用很方便。AIAPI是一个对话的接口,这些package被优化后放在网上,用户可以下载,放在自己的数据中心或者云端。以后chatbot就是NIMS。 未来创作软件,很可能是依赖一个超级AI,接受任务,分解为执行计划,给到其他的适合不同场景的NIMS。我们可以依靠NIMS来组装,NIMS在到处都可以使用。我们可以做设计芯片的chatbot,aicopilot作为我们工程师的伙伴。我们用LLAMA的NIMS为例,我们提供很多的例子,这个NIMS就可以些程序了。NIMS可以让用户依靠自己的数据微调AI。 AI有三个支柱,第一个事发明AI,第二是创建工具修改,第三个是做微调。我们就是AIfoundry,就像TSMC给我们做芯片一样。我们公司很多数据不是在云当中,我们希望学习数据当中的意义,产生新的数据库,形成AI数据库。比如和pdf对话,首先encode 所有的pdf,之后直接和数据可以交互。我们还有NIMS数字人用于医学。 有很多公司坐在金矿上面,他们有对于工作的方式有很多理解,有很多工具和数据,如果有copilot,他们可以有自己的copilot。有超过80%的世界五百强企业都在用SAP的人力资源系统,SAP在用我们的NIMS。Servicenow,用我们的NIMS提供虚拟支持。Cohesity,建设他们的AI。Snowflake,现在和我们合作。