【国盛计算机】2024103119 文章资料均未源于英伟达官网https://www.nvidia.com/gtc/keynote/要点: 加速计算已达到临界点。通用计算已经失去动力,需要另一种计算方式,以便能够继续扩展并降低计算成本。在Transformer发明之后,大模型每六个月有效地扩展一倍。为了支持最新、最先进的OpenAl模型拥有约1.8万亿个参数,需要数万亿tokens进行训练,因此需要更大的GPU. Blackwell发布性能较Hopper显著提升、GB200功耗优化。1)Blackwel20PFLOPS的AI算力,192GBHBM3e,8TB/S存储带宽,较Hopper在FP4规格算力提升5倍。2)如果要训练-个1.8万亿参数量的GPT模型,需要8000张HopperGPU,消耗15兆瓦的电力,连续跑上90天。但如果使用BlackwellGPU,只需要2000张,同样跑90天只要消耗4兆瓦的电力。 英伟达推出生成式AI微服务NIMS。未来开发软件或通过与AI聊天的形式调动NIMS(Nvidiainferencemicroservice)来完成。全新由GPU加速的NVIDIANIM微服务和云端端点目录,适用于经过优化的预训练AI模型,可以在云、数据中心、工作站和PC等数亿支持CUDA的GPU上运行。目前,NIM已被广泛的AI生态系统所采用,包括Cadence、CrowdStrike、SAP、Snowflake等应用平台提供商。 开启机器人GR00T项目。旨在进一步推动英伟达在机器人和具身智能的突破性工作。由GR00T驱动的机器人可以理解自然语言,并通过观察人类动作来模拟运动。 全文: NVIDIA时间线: -1993年:英伟达成立。 -2006年:CUDA,它后来被证明是一种革命性的计算模型。当时我们就认为这是革命性的 2012年:AlexNet与CUDA首次接触;我们发明了一种名为DGX1的新型计算机,首次将170teraflops和8个GPU连接在一起。DGX1是世界上第一台人工智能超级计算机 2017年:Transformer到来: 2022年:ChatGPT激发了世界的想象力,让人们认识到人工智能的重要性和能力2023年:生成式人工智能出现,一个新行业的开始。 为什么说生成式人工智能是新产业?我们现在正在用计算机编写软件来生产软件 ,生产出以前不存在的软件。 这是一个全新的类别。它从一无所有中夺取了份额。制作软件的方式与我们以前做过的任何事情都不同。 在数据中心,我们正在大规模生成tokens并生成浮点数,这让人想起工业革命的早期。当时,交流发电机的创新将能源的应用转变为电力,一种以前看不见但非常宝贵的资源。快进到今天,我们正在通过人工智能工厂创建新型代币。该基础设施致力于生产人工智能,这是一种非常有价值的新资产。于是,一个新的产业诞生了。 今天,我们将探讨这个新兴行业的各个方面。我们将讨论计算的未来、该行业带来的创新软件以及对软件开发的影响。此外,我们将研究这个新领域的潜在应用,并思考未来的前景。我们公司的核心在于计算机图形学、物理和人工智能的交叉点。今天展示的一切,从Omniverse 中的虚拟世界模拟到机器人和人工智能驱动的动画,都是这种集成的证明。 加速计算已达到临界点。通用计算已经失去动力。我们需要另一种计算方式,以便我们能够继续扩展并降低计算成本,以便我们能够在可持续的同时继续消耗越来越多的计算。 加速计算比通用计算有了显着的加速。对于我们从事的每个行业来说,影响都是巨大的。但在任何行业中,都不比我们自己的行业使用模拟工具来创建产品的行业更重要。在我们的行业中,并不是要降低计算成本,而是要扩大计算规模。我们希望能够模拟整个产品的“数字李生”。 我们希望完全数字化地设计、建造、模拟和操作这个数字副本。为了做到这一点,我们需要加速整个行业的发展。 从规模化中获益匪浅的行业之一是大型语言模型。从本质上讲,在Transformer发明之后我们能够以令人难以置信的速度扩展大型语言模型,每六个月有效地扩展一倍。 我们如何可能通过每六个月翻一番,使行业和计算需求增长至今? 原因很简单:如果将模型的大小加倍,类似于将大脑的大小加倍,则需要两倍的信息来填充模型。 因此,每次将参数数量加倍时,还必须适当增加训练tokens的数量。为了支持最新、最先进的OpenAl模型(约1.8万亿个参数),需要数万亿代币进行训练,也就是大约1000年来训练。因此 ,我们需要更大的GPU。 我们需要更大的GPU。我们很早就认识到了这一点,并意识到答案是将一大堆GPU放在一起,当然,还要一路创新很多东西,比如发明张量核心和推进NVLink,通过InfiniBand将它们连接在一起。DGX1 是我们的第一个版本,但不是最后一个版本。我们一直在建造招级计算机。2021年,我们的SELENE拥有大约4500个GPU。然后,在2023年,我们建造了世界上最大的人工智能超级计算机之一:EOS。 当我们构建这些时,我们正在努力帮助世界构建它们。为了帮助世界,我们必 须首先建设它们。 我们制造芯片、系统、网络以及实现这一目标所需的所有软件。想象一下编写一个在整个系统上运行的软件,将计算分布在数千个GPU上。数百万个GPU,用于在所有这些之间分配工作并平衡工作负载,以便您可以获得最大的能源效率、最佳的计算时间并降低成本。这些根本性的创新让我们取得了今天的成就。 当我们见证ChatGPT的奇迹出现在我们面前时,我们也意识到我们还有很长的路要走。我们需要更大的模型。我们将使用多模态数据来训练它们,不仅仅是互联网上的文本,还包括文本、图像、图表、图表和视频,以便这些模型能够以物理为基础,理解手臂不会通过 一堵墙。因此,这些模型会观看大量世界视频并结合大量世界语言来训练,将具有常识。他们将使用诸如合成数据生成之类的东西,就像你我在尝试学习、想象结果时所做的那样。 我们坐在这里,使用合成数据生成。我们将使用强化学习,在我们的脑海中进行练习。我们将让人工智能与人工智能合作,互相训练,就像师生辩手一样。所有这些都会增加我们模型的大小、我们拥有的数据量,并且我们将不得不构建更大的GPU。Hopper非常棒,但我 们需要更大的GPU。BlackwellGPU: Blackwell较Hopper的tokens生成速度提高5倍,推理能力提高5倍,实际上还不够。我们希望拥有更大的GPU,甚至比这还要大。因此,我们决定对其进行扩展。 在过去的八年中,我们将计算能力增加了1000倍。根据摩尔定律,在个人电脑革命的全盛时期实现了每五年增长10倍,每十年增长100倍。然而在过去的八年里,我们增长了1000倍。我们推进计算的速度简直疯狂,而且这还不够快。 因此,我们又造了一颗芯片:NVLinkswitch。这颗芯片拥有500亿个晶体管,几乎与Hoppe本身一样大。Wwitch内部有四个NVLink,每个的速度为1.8TFIOpS。如果我们构建这样一颗芯片,我们可以让每一个GPU同时以全速与其他每一个GPU通讯。为了使其成本有效,这颗芯片的-一个伟大发明是它必须直接驱动铜线。 这就是一个DGX。我们多年前交给OpenAl的第一个DGX是170TFIopS,也就是0.17PFlops,而现在这个是720PFlops。截至目前,全球只有两三台EFlops级别的机器,因此这几乎是一个单机架的EFlops系统。使这成为可能的是DGXNVLink主干:130TB/s的数据通过该机箱的背面。这比整个互联网的总带宽还要多。因此,我们基本上可以在一秒钟内把所有东西发送给任何人。 我们总共有55,000条NVLink电缆,总长度达两英里。如果我们必须使用光学设备,我们将不得不使用收发器和重新计时器。仅使用这些收发器和重新计时器就将耗费20千瓦的电力,仅用于驱动NVLink主干,而我们能够将这20千瓦的电力用于计算。整个机架的功率是120千瓦,因此这20千瓦的差异非常巨大 。它采用液体冷却。 现在这个系统有600,000个部件,重3,000磅。如果你要用Hopper训练一个拥有1.8万亿参数的GPT模型,可能需要8.000个GPU,并消耗15兆瓦的电力。如果你使用Blackwell来做这件事,只需要2000个GPU,同样的90天,但仅需4兆瓦的电力。 我们的目标是不断降低与计算相关的成本和能源。它们彼此成正比,因此通过这样做,我们可以继续扩展和扩大训练下一代模型所需的计算量。无论是训练 、推理还是生成,这对于未来都至关重要。 您可能会发现有趣的是,如今,大约有一半的NvidiaGPU位于云中,它们被用于生成tokens。它们为从Copilot功能到 ChatGPT等聊天模型等应用程序提供支持,生成图像、视频、蛋白质、化学物质--凡是你能想到的。 但问题是:大型语言模型的推理极具挑战性。这些模型非常庞大,根本不适合单个GPU现在,通过这些大型模型,我们正在与一个本质上需要超级计算机来运行的系统进行交互 当我们谈论生成tokens时,生成tokens的速度至关重要。我们的目标是让tokens在您能够读取它们的同时尽快返回给您。这需要在多个GPU 之间分配和并行化工作负载,以实现高否吐量(降低每个token的成本)和高交互率,从而提供优质的用户体验。这种平衡行为为跨GPU 分配工作的最佳配置创造了巨大的搜索空间。 我们正在利用Blackwell 系统突破界限,该系统专为万亿参数生成人工智能而设计。坦率地说,Blackwell 的推理能力是超乎想象的--对于大型语言模型来说,Blackwell 的推理能力大约是Hopper的30倍。我们通过架构进步以及FP4张量核心和新Transformer引|擎等技术的集成以及NVLink 交换机实现了这一目标,从而显着加快了GPU之间的通信速度。 如何走到今天的生成式A1: 2012年,第一次接触AlexNet。你在这台计算机中输入一只猫,它就会输出“cat"我们了解它是如何系统地、结构性地、以可扩展的方式做到这一点的,并认为这标志着一种全新的软件编写方式。仅仅10 年后,我们就已经能够识别文本、图像、视频和声音了。如果我们能够学习这些模式,我们就能理解其含义。如果我们能够理解它的含义,我们也许也能够生成它。因此,生成式AI的革命已经到来。 气候:我们很想了解极端天气,以及如何以足够高的分辨率预测区域范围内的未来天气以便在伤害到来之前确保人们的安全。极端天气给世界造成的损失达1500 亿美元。因此我们正在创建地球2,它是地球的数字李生,用于预测天气。我们做出了一项非凡的发明称为CoreDi,能够使用生成式人工智能以极高分辨率预测天气。TheWeatherCompany正在与我们合作加速他们的天气模拟。 医疗保健:15年前开始的,无论是医学成像、基因测序还是计算化学。Nvidia很可能是其背后的计算者。 我们在这方面做了很多工作。今天,我们宣布我们要做一些非常酷的事情。 人们意识到许多公司,尤其是企业IT行业的公司,都坐落在金矿之上,这一点令人兴奋这些财富源于他们对工作流程的深刻理解、多年来开发的创新工具以及积累的大量数据。 通过利用这些资源来创建副驾驶,这些实体可以彻底改变我们处理任务的方式 。显然,全球几乎所有提供有价值工具的IT 特许经营商和平台都坐拥培养副驾驶的潜在金矿。 他们渴望打造自己的专业副驾驶和聊天机器人,而NvidiaAlFoundry正处于这一运动的最前沿,与-些全球最具影响力的公司合作。 SAP:SAP是该领域的巨头,为全球87%的商业提供了便利,这凸显了世界在SAP上运营的事实。Nvidia和SAP正在联手通过利用NvidiaNeMo和DGX云服务创建SAPJewel副驾驶。 ServiceNow:ServiceNow在85%的财富500强公司的人事和客户服务运营