您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中泰证券]:【中泰电子】AI系列之Computex 2024:英伟达主题演讲-AI时代如何在全球范围内推动新的工业革命 - 发现报告
当前位置:首页/行业研究/报告详情/

【中泰电子】AI系列之Computex 2024:英伟达主题演讲-AI时代如何在全球范围内推动新的工业革命

电子设备2024-06-04王芳、杨旭、李雪峰中泰证券苏***
【中泰电子】AI系列之Computex 2024:英伟达主题演讲-AI时代如何在全球范围内推动新的工业革命

证券研究报告 报告日期:2024年6月4日 【中泰电子】AI系列之Computex2024:英伟达主题演讲—AI时代如何在全球范围内推动新的工业革命 分析师: 王芳S0740521120002杨旭S0740521120001李雪峰S0740522080004 1 6月2日晚,英伟达CEO黄仁勋在台北ComputeX2024大会上展示了英伟达在加速计算和生成式AI领域的最新产品,梳理了未来计算、应用包括AI机器人技术的发展与应用,从AI硬件、软件、生态、下游应用等全方位梳理英伟达在AI领域的产品与发展路径。 AI将引领科技巨大变革 来源:英伟达,中泰证券研究所2 加速计算解决数据量矛盾,GPU解决并行问题 英伟达从加速运算、及GPU两方面改变科技产业发展。 加速运算,解决性能扩展大幅放缓与数据处理量飞速上升的矛盾。如果处理的需求,数据量继续呈指数级增长,但CPU性能不能持续快速扩展,那将经历计算膨胀。近二十年来,英伟达一直在研究加速计算,可以增强CPU,加速专门处理器可以做得更好的工作。黄仁勋预测,每个处理密集型应用程序都将被加速,每个数据中心肯定在不久的将来都会加速,现在加速计算非常有意义。 GPU是新的架构,适合用于并行运算场景。专用处理器可以将耗时很长的任务加速到极快的速度。因为CPU和GPU可以同时工作,它们都是自主的,独立的,可以将原本需要100个时间单位的任务加速到1个时间单位,速度的提升是难以置信的,效果非常显著,速度提升了100倍,但功耗只增加了大约三倍,成本只增加了约50%。 来源:英伟达,中泰证券研究所3 举例:专用处理器可以将需要处理很长时间的事情,加速到很快,并且成本相对较低。例如这里本身100T的事情,原本需要100个小时去处理,但是发明了CPU+GPU的架构,可以并行独立处理,现在只需要1个小时,但是它所需的电力成本只增加了3倍,而成本可能只增加了50%。 门槛:软件层面是GPU的最大门槛。从CPU切换到GPU,需要重写底层软件等,使其能够被加速并行计算。为了使加速计算能得到广泛应用,英伟达创新了一系列不同领域的库。虽然加速计算技术能够带来芯片显著的性能提升和成本节约,但也需要软件相匹配,以适应加速器并行运行,这不仅需要重新设计和编码,而且要求深入理解并行计算原理。为此,经过英伟20年里的研究,推出了一系列库。 软件层面是GPU主要门槛 来源:英伟达,中泰证券研究所4 英伟达在软件层面致力于让世界更容易 加速计算的软件门槛:英伟达致力于让世界变得更容易,举例来看: 加速计算领域—cuDNN深度学习库:它专门针对神经网络加速进行了优化,使得深度学习模型的训练和推理过程能消耗更少的资源但以更高的速度完成。此外,英伟达还为人工智能物理模拟提供了专门的库,支持流体动力学等需要遵循物理定律的应用,进一步提高了模拟的效率和准确性; 5G无线电技术加速领域—Aerial库:它利用CUDA技术加速5G无线电技术,使得电信网络能够像软件定义互联网网络一样, 通过软件定义和加速实现更高的性能。这不仅提升了整个电信行业的计算能力,也为云计算平台的发展提供了新的可能性; 芯片制造领域—Coolitho计算光刻平台:它通过加速计算技术,显著提高了掩模制作的效率,帮助台积电等公司节省了大量能源和成本。 这些特定领域的库是英伟达生态系统中的关键组成部分。如果没有这些库,全球的深度学习科学家可能无法充分利用CUDA的潜力,因为CUDA与TensorFlow、PyTorch等深度学习框架中使用的算法之间存在显著差异。这些库使得加速计算得以广泛应用,帮助英伟达在市场中保持开放和领先。 来源:英伟达,中泰证券研究所5 上周,谷歌宣布他们将cuDF放进了他们的云端系统,使他们的pandas更快。这是世界上最受欢迎的数据科学库,它被世界上1000万数据科学家使用,每个月下载170次。现在只需要一个键,就可以使用它,发现使用起来很快。当你加速数据处理那么快时,演示不会花费很长时间。 英伟达在软件层面致力于让世界更容易 来源:英伟达,中泰证券研究所6 英伟达持续为AI发展做贡献 回顾NV与AI发展历程: 2012年,公司研究人员发现原先的CUDA架构是非常好用的,为了使深度学习成为可能,开始和很多科学家进行合作; 2016年,英伟达将公司研发的第一台DGX超级电脑出售给OPENAI; 2017年,世界出现了Transformer,在数千个、数万个NvidiaGPU上训练,并有企业有了成果。例如,OPENAI宣布了Chat GPT,5天后就拥有了100万用户,2个月后拥有数百万用户。 2022年,OpenAI发布了ChatGPT,五天内用户达到一百万,两个月内达到一亿,成为历史上增长最快的应用。 来源:英伟达,各公司官网,中泰证券研究所7 NIM赋能传统企业赛道,加速智能化 NIM赋能传统企业赛道。软件生态是英伟达一直以来引以为傲的护城河,但对于缺乏AI基础开发能力的传统行业来讲,掌握分散复杂的系统存在一定难度。英伟达推出了集成过去几年软件于一体的NVIDIANIM,提供了一个从最浅层的应用软件到最深层的硬件编程体系CUDA的直接通路,构成GenAI应用程序的各种组件(模型、RAG、数据等)都可以完成直达NVIDIAGPU的全链路优化。缺乏AI开发经验的传统行业可以绕过AI开发公司部署调优成本,直接利用自身数据部署专属行业模型,使用价格为4500美元/年或1美元/h。实现该效果的核心部分如下: 1)容器化应用程序Kubernetes:通过Kubernetes创建单一架构,可运行其中所有软件; 2)预构建容器Nim:NIM针对每个模型和硬件设置利用优化的推理引擎,在加速基础设施上提供最佳的延迟和吞吐量。NIM的模型库中包括英伟达自身模型、合作伙伴模型(AI21Labs,Cohere等)、开源模型(来自Meta、HuggingFace、StabilityAI和Google)。 来源:英伟达,各公司官网,中泰证券研究所8 NIM赋能传统企业赛道,加速智能化 NIMs类似于英伟达把AI装进一个盒子里,装满了大量的软件,包括CUDA、cuDNN、TensorRT、Triton推理服务。NIMs有通用API,标准API,可以与这个盒子聊天,可以在数亿台PC上使用,可以推理Agent、检索信息等不同用途。未来每家公司都会有大量NIM集合,将它们连接成一个团队,让其自主分配任务,这就是未来应用的样子。 基于NIM推出25个医疗微服务,大幅提升医疗服务效率,安进、Astellas、DNANexus等均为该类服务客户。基于上述NIMAI推理服务器英伟达推出了基于医疗厂家的微服务,为成像、医疗技术、药物发现和数字健康领域越来越多的模型集合提供优化推理,其中药物发现方面包括用于生成化学的MolMIM、用于蛋白质结构预测的ESMFold、帮助研究人员了解药物分子如何与靶标相互作用的DiffDock等,帮助全球医疗保健公司基于GenAI进行效率提升。与在CPU上运行相比,英伟达的微服务能够将基因组分析工作流程中的变异调用速度提高了50倍以上。此外根据英伟达展示的合作,通过基于人工智能驱动的医疗临床对话平台,能够为临床医生节省最多三个小时时间。 来源:英伟达,中泰证券研究所9 AIPC是端侧确定性方向 AIPC:本次Computex英伟达展示了四款新的令人惊叹的笔记本电脑,它们都能够运行AI。未来的PC将会成为一个AI,AI将在不同的方式中表现出来并被用于PC中。PC将成为非常重要的AI平台。英伟达把TensorcoreGPU放在RTX,已经将一些AIGPU出货了,目的是为了营造AI芯片基础的消费市场,公司知道要创造一个运算平台,先必须把这个基础打好。黄仁勋认为,未来大家的个人PC就是AIPC,会在各个方面帮助很多。 来源:英伟达,中泰证券研究所10 英伟达为客户提供整套AI方案—建立AI工厂 AI工厂:最初作为超级计算机的计算机现在已经演变成了一个数据中心,它只生成一种东西,那就是token,它是一个AI工厂。运算方式不断改变,现在可以处理大型模型,未来电脑会生成符合需求的东西,电脑不是工具而是生成新的技能,未来这个产业也不单是设计应用程序,而是可能大量用于制造。 英伟达并非简单的芯片厂商,持续致力于为客户提供一整套AI解决方案,如Blackwell系列芯片。 来源:英伟达,中泰证券研究所11 Blackwell拥有巨大算力提升 人类标注的数据是有限的。Transformer使得无监督学习成为可能。所需算力不断增长,需要更大的GPU——Blackwell。 Blackwell特点:Blackwell架构以美国统计学家和数学家DavidHaroldBlackwell的名字命名,是英伟达首个采用MCM(多芯片封装)设计的GPU,基于该架构实现的B200是英伟达目前能实现的最大芯片,合计搭载2080亿晶体管(两个基础芯片通过10tb/秒的英伟达芯片对芯片链路连接成一个统一的GPU。和H100架构的6个HBM接口相比,Blackwell的拼接方式进采用了4个HBM接口,这样一来就在存储接口方面节约了芯片面积。从2016年Pascal架构提供19TFLOPS(FP16)至今,算力参数已经提升到了Blackwell架构提供的20PFLOPS(FP4),整整提升了1000倍。相比于Hopper平台,Blackwell平台具有六项革命性技术,在传统FP8精度下实现Hopper平台2.5倍性能,并新增FP4、FP6精度,FP4精度下实现Hopper平台的5倍性能表现,能够在拥有高达10万亿参数的模型上实现AI训练和实时LLM推理。 来源:英伟达,中泰证券研究所12 DGXB200:DGXB200搭载8个B200GPU,提供72PFLOPS训练算力和144PFLOPS推理算力,在推理、训练、加速数据处理中,分别表现出H100的15倍、3倍、2倍性能。根据英伟达在业绩说明会中表示,AI推理需求会不断上升,DGXB200在AI推理端性能的巨额提升将助力英伟达抢占AI推理市场。 GB200:GB200由两个B200和一个GraceCPU结合形成,通过900GB/s的超低功耗NVLink芯片间互连技术连接在一起,提供40PFLOPS(FP4)的算力,384GB内存,1.6TB/s带宽。搭载两个GB200的元件作为Blackwell计算节点,18个计算节点在NVLinkSwitch的支持下构成GB200NVL72,最终用QuantumInfiniBand交换机连接,配合散热系统组成新一代DGXSuperPod集群。GB200NVL72全部采用铜链接用以密集封装、互联GPU,无需采用光学收发器,可以简化操作,同时节省20kw用于计算,大幅提升其AI效能。 Blackwell有不同出货形式满足客户需求 来源:英伟达,中泰证券研究所13 NVLink为GPU提供通信基础 第五代NVLink:为了加速万亿参数和混合专家人工智能模型的性能,最新一代NVIDIANVLink为每个GPU提供突破性的1.8TB/s双向吞吐量,确保最多576个GPU之间的无缝高速通信,适用于最复杂的LLM。 来源:英伟达,中泰证券研究所14 英伟达提出创新网络解决方案 为了满足大型人工智能工厂的需求,英伟达提出了一种创新的网络解决方案,将InfiniBand的性能引入以太网架构中。这一挑战的关键在于,数据中心内部的通信需求远大于与互联网用户的通信,尤其是在人工智能工厂中,GPU之间需要频繁且密集的数据交换。 在人工智能训练过程中,GPU需要收集部分结果并进行规约和重新分配,这种通信模式导致高度突发性流量。因此,网络的最后一个数据包的准时到达变得至关重要,而传统以太网并未针对这种低延迟需求进行优化。为了解决这一问题,英伟达采用了四种关键技术:RDMA、拥塞控制机制