您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天风证券]:英伟达:ComputeX2023主题演讲纪要20230530 - 发现报告
当前位置:首页/会议纪要/报告详情/

英伟达:ComputeX2023主题演讲纪要20230530

2023-05-29天风证券十***
英伟达:ComputeX2023主题演讲纪要20230530

RTX4060TI 光线追踪(模拟光线和材料的特性)是加速计算的终极挑战。6年前,我们第一次展示了在不到几个小时内渲染这个场景。经过十年的研究,我们能够在几秒钟内渲染这个场景,6年前在我们最高端的GPU上是15秒。然后我们发明了Nvidiartx,并结合了3项基本技术,硬件加速的光线追踪、NvidiaTensorCoreGPU上的AI处理、和全新的算法。让我们来看看短短5年内的差异。这是6年前在cudaGPU上运行的,渲染了这个美丽的图像,否则在CPU上需要几个小时。这已经是一个巨大的突破,在加速计算上运行的速度大大加快。然后我们发明了rtxGPU。光线追踪现在可以实时进行了,这就是我们在rtx中投入的技术。5年后的今天对我们来说是一个非常重要的时刻,因为我们第一次把我们的第三代Ada架构,rtxGPU,通过两个新产品带到了主流市场,现在已经完全投入生产。 我们的全新产品,AdaGPU,以每秒60帧的速度运行光线追踪和人工智能,14英寸,几乎没有重量,比最高端的PlayStation还要强大。这是为我们的核心游戏玩家提供的rtx4060ti。这两款产品现在都在生产中。我们在台湾的合作伙伴正在以非常大的规模生产这两款产品。如果没有人工智能,你所看到的一切将是完全不可能的。对于我们渲染的每一个像素,我们使用人工智能来预测其他7个像素。我们节省的能源量和得到的性能量是令人难以置信的。现在,我向你们展示了这2个产品的的性能,但如果不是Nvidia后面的超级计算机一直在运行,训练模型,使我们能够增强应用,这是不可能的。因此,未来就是我刚才向你们展示的。你可以把我接下来要谈的几乎所有东西都推导到这个简单的想法中,即将有一台大型计算机编写软件,开发和部署令人难以置信的软件,可以部署到世界各地的设备中。 NVIDIAACEAvatarCloudEngine 我们用AI来渲染这个场景。我们还将使用人工智能来使它活起来。今天我们宣布NvidiaACEAvatar云引擎,它是为动画设计的,将数字Avatar带入生活。它有几个能力,语音识别,文本到语音,自然语言理解,基本上是一个大的语言模型,并使用你的声音使脸部和手势动画化。所有这些都是完全由人工智能训练的。 我们的服务包括预先训练好的模型,开发人员可以来修改和加强你自己的应用程序,为你自己的故事,因为每个游戏都有一个不同的故事。然后你可以把它部署在云端或部署在你的设备上。它有的后端有一个TensorRT(一个视频深度学习优化编译器),而且你可以把它部署在NvidiaGPU上,以及输出Onyx和行业标准的后端,这样你就可以在任何设备上运行它。 让我们看看这个场景。它是完全用光线追踪渲染的。所有不同的灯光都是从那个源头投射出来的光线。所以你有各种直接的灯光,全局照明。你会看到令人难以置信的阴影和物理模拟。角色的渲染都是在虚幻引擎5中完成的。我们与一个叫comai的Avatar工具制造商合作,一起开发了你将要看到的这个演示。 这段对话没有一个是编排好的。我们给这个AI角色一个背景故事,关于他的拉面店的故事和这个游戏的故事。而你所要做的就是上去和这个角色对话。这个角色已经被注入了人工智能和大规模语言模型,这使得它可以与你互动,理解 你的意思并以真正合理的方式与你互动。所有的面部动画完全由人工智能完成 。我们已经使所有种类的角色都有可能被生成。他们有自己的领域知识。你可以定制它。所以每个人的游戏都是不同的。人工智能不仅会对环境的渲染和合成做出贡献,人工智能还将为人物制作动画。人工智能将是视频游戏未来的一个非常大的组成部分。 加速计算临界点到来,GPU提供更低成本 今天在计算机行业有2个基本的转变。第一个趋势是CPU每5年获得10倍性能的能力已经结束。成本是今天计算机如此之快的原因。在不增加功率的情况下,每5年维持10倍的计算能力是世界上的数据中心还没有在地球上消耗这么多的算力的原因。这种趋势已经结束,我们需要一种新的计算方法——加速计算,同时发生的还有深度学习的出现。这两个事件结合在一起,推动了今天加速计算和生成性人工智能。这种计算的方式是一种从头开始的重塑。加速计算是一个全栈问题,不像通用计算那样容易。从芯片到系统、软件、新算法,还有优化新的应用程序。第二是数据中心的规模问题,因为今天的数据中心就是计算机。过去你的PC或者手机是一台计算机,今天你的数据中心就是计算机。应用程序在整个数据中心内运行,因此你必须了解如何优化芯片、计算、软件,以分布式计算的方式跨过缺口、交换机到另一端,这一点至关重要。第三次加速计算是需要特定领域设计的。你为计算生物学创建的算法和软件栈与你为计算流体力学创建的软件栈在本质上是不同的。这些科学领域中的每一个都需要自己的堆栈,这就是为什么加速计算花了我们近30年时间才完成的原因。 我们正处于新的计算模型的临界点。一个新的计算模型是极难出现的。为了有一个新的计算模式,你需要开发人员,而开发者必须创造出终端用户会购买的应用程序。没有终端用户,就没有计算机公司来制造计算机。没有电脑公司制造电脑,就不会有安装基础。没有安装基础,就不会有开发者。没有开发者,就不会有应用程序。在我从事这个行业的40年里,有很多计算机公司都遭受过这种循环。 一个新的计算模式已经被开发和创建,现在已经达到了一个新计算时代的转折点。我们现在有400万名开发人员,3000多个应用程序,历史上有4000万个cuda下载,去年就有2500万个。今天世界上有15000家创业公司和40000家大公司建立在Nvidia上。全世界的企业都在使用加速计算。这种新的计算模式现在被世界上几乎所有的计算机公司和每个云计算公司所享受和接受。事实证明,每一种计算方法,其好处归根结底都是降低成本。1984年开始的PC革命,个人电脑将计算带到了一个前所未有的价格点。然后,移动设备很方便,节省了大量的钱,集成了相机、音乐播放器、PC等。每一代都提供了新的东西,也节省了钱。 用于大型语言模型的加速计算,是生成式AI的核心。这是一个价值1000万美元的CPU服务器。1000万美元能让你得到960台CPU服务器。训练和处理这个大型语言模型需要11GWh。 这是当你用加速计算来加速工作负载时发生的情况。1000万美元的GPU服务器 ,包含48个GPU服务器。GPU服务器不再是计算机,是数据中心。你的目标是建立最具成本效益的数据中心,而不是建立最具成本效益的服务器。GPU服务器只消耗3.2GWh,性能是CPU服务器的44倍。 现在,我们保持11GWh的功率不变,相同的功率,使用加速计算,你可以用3倍的成本获得150倍的性能,为什么这是一个好的交易?原因是寻找另一个数据中心是非常昂贵和耗时的,今天几乎每个人都是电力有限的。几乎每个人都在争先恐后地开辟新天地,以获得更多的数据中心,如果你受到电力限制,或者你的客户受到电力限制,那么他们可以做的是在那个拥有11千兆瓦的数据中心中投入更多资金,你可以获得更多的吞吐量,继续推动你的增长。 我们保持1XLLM的工作负载不变,只需要2台GPU构成的服务器,以0.13GWh和400万美元的预算完成相同工作负载。 数据中心的TCO方程式是非常复杂的。取决于成本、吞吐量、使用率等等。 吞吐量:芯片;算法,没有算法库,加速计算什么也做不了;网络很重要,涉及到数据中心的规模问题;系统软件,分布式计算;为了向你的客户展示系统 ,最终必须有很多应用程序在上面运行,所以软件生态系统很重要。 使用率:数据中心TCO最重要的标准之一。就像一个酒店,如果酒店很好,但大部分是空的,成本会高的难以承受。所以需要利用率高,为了使利用率高,你必须有许多不同的应用程序,所以应用程序的丰富性也很重要。算法库以及的软件生态系统, 采购运营:你购买一台计算机,但是部署上有难度。从你购买计算机的那一刻起,到你把那台电脑投入工作开始赚钱,这其中的时间可能是几周也可能是一年。 成本生命周期优化:数据中心是软件定义的,有许多工程师将继续完善和继续优化软件堆栈,因为Nvidia的软件堆栈在架构上兼容我们所有的世代和我们所有的GPU。 电力:能源消耗。H100 我们现在已经解决了很多不同的科学领域,这么多的行业,在数据处理、深度学习、经典的机器学习中,我们有很多不同的方式来部署软件,从云到企业,从超级计算到边缘。有许多不同版本的GPU配置。从我们的HGX版本到我们的Omniverse版本再到我们的云GPU和图形版本,种类繁多。现在NvidiaGPU的利用率非常高,几乎每个云都超负荷运行,几乎每个数据中心也都超负荷运行 ,许多不同的应用程序都在使用它。因此,我们现在已经达到了加速计算的临界点,也达到了生成式人工智能的临界点。 我们非常兴奋能够全面投入生产H100。这台计算机系统板上有35,000个零部件和8个HopperGPU。这台计算机售价200万美元。这就是全球第一台配备变压引擎的计算机——崭新的H100,它的性能极其出色。 Hoppers正在全面投产。我们已经推动了这种新形式的计算机运算12年了。当我们初次接触到深度学习研究人员时,我们意识到,深度学习不仅将是许多应用(最初是计算机视觉和语音)的绝佳算法,还将是一种全新的软件开发方式 ——可以使用数据来开发、训练一个具有惊人维度的通用函数逼近器。只要数 据具有它可以学习的结构,它可以基本上预测你拥有数据的任何内容。因此,我们意识到这种开发软件的新方法非常重要,并且它有完全重新发明计算机的潜力。 我们创建了一种新类型的库,本质上类似于续集,但是用于神经网络处理的深度学习。这就像一个渲染引擎,一个名为CUDA的神经网络处理求解器。我们致力于重新发明GPU,使其在张量处理方面表现出色。我们创建了一种名为SXM的新型封装,并与台积电合作开发了硅光子解决方案,以便我们可以将多个链、船堆叠在同一块芯片上,将这些SXM模块连接起来,实现高速芯片间互连 。近十年前,我们建造了世界上第一个chiptochip30s,以便我们可以使用SXM和NVlink扩展GPU的内存大小。我们还创造了一种新型主板,称为HGX。没有任何计算机比这个更重或消耗的电流更大,数据中心的每个方面都必须被重新发明。我们还发明了一种新型的计算机设备,可以在上面开发软件,以便第三方开发人员可以使用我们称之为DGX的简单设备开发软件。我们还购买了Mellanox,这是公司的伟大战略决策之一,我们意识到在未来如果数据中心是计算机,那么网络就是神经系统。如果数据中心是配置是计算机,那么网络就定义了数据中心。 生成式人工智能 今天我将向您展示一些非常惊喜的成果。当然,如果你有一个神经系统、一个分布式计算机,它需要在这个分布式计算中有一个操作系统,我们称之为MagnumIO,这是我们最重要的一些工作。然后,在这些计算机上运行的所有算法和引擎,我们称之为NvidiaAI,这是世界上唯一的AI操作系统,可以实现端到端的深度学习处理,包括数据处理、训练、优化、部署和推理,它是今天AI的引擎。 这是新的计算机产业,软件不再仅由计算机工程师编写,而是由与AI超级计算机合作的计算机工程师编写。这些AI超级计算机是一种新型工厂,它们生产的产品是电脑。未来,每个重要的公司也将拥有AI工厂。我们培养、发展和培育员工,并继续创造条件,使他们能够做出最好的工作。我们已经是智能生产者了,只是这些智能生产者是人类。未来,我们将成为智能生产者、人工智能生产者。每家公司都将拥有工厂,而这些工厂将会以这种方式建造。 这将转化为您的吞吐量,这将转化为您的规模,并且您将以非常好的TCO方式构建它。我们致力于追求这条道路并不断提高性能。十年后,我们通过增加吞吐量、增加规模,在整个堆栈上提高了100万倍的吞吐量。刚才我展示了电脑图形,五年内我们使用人工智能和加速计算将电脑图形提升了1000倍。使用加速计算和人工智能,我们在5年内将电脑图形加速了1000倍。摩尔定律目前可能是2倍,5年内提高1000倍,10年