当地时间3月22日周二,英伟达举办2023年春季GTC大会,其CEO黄仁勋发表了名为《切勿错过AI的决定性时刻》的演讲,向开发者披露最新的硬件和AI应用软件进展。在长达78分钟的视频中,他四次用“iPhone时刻”来形容AI当下的发展,并称“这将是我们迄今为止最重要的一次GTC大会”。 一、主要发布内容 1.1、加速库:是加速计算的核心,持续更新迭代 训练GPT-3需要进行323x10e21次浮点运算,浮点运算量比训练AlexNet多一百万倍,海量的浮点运算创造出了ChatGPT这个震惊全世界的AI,崭新的计算平台已经诞生。黄仁勋表示,AI的“iPhone时刻”已经到来。加速计算和AI技术已经走进现实,加速库是加速计算的核心,连接到各种应用中进而再连接到各行各业。 经过30年的开发,已经有数千款应用被NVIDIA的库加速,几乎涉及科学和工业的每个领域。NVIDIAGPU都兼容CUDA,为开发者提供了庞大的安装基础和广泛的覆盖需求,大量加速应用吸引了终端用户,这为云服务提供商和计算机制造商,创造了一个庞大的市场,这个市场大到足以投入数十亿的研发费用来推动其增长。在涵盖光线追踪和神经渲染、物理、地球和生命科学、量子物理学和化学、计算机视觉300个加速库和400个AI模型中,英伟达今年更新了其中的100个,更多的功能让所有正在使用中的用户享受到更高的性能。发布会上详细介绍了以下三种加速库: 用于量子计算的cuQuantum:NVIDIA正在与全球量子计算研究社区合作。NVIDIA Quantum平台由库和系统组成,可供研究人员推进量子编程模型。cuQuantum是用于量子电路仿真的加速库, IBMQiskit、GoogleCirq、百度量易伏、QMWare、QuEra、XanaduPennylane、Agnostiq和AWS Bracket已将cuQuantum集成到他们的仿真框架中。 用于组合优化的cuOpt:NVIDIAcuOpt使用进化算法和加速计算每秒分析300亿次动作,打破了世界纪录。应用举例: AT& T定期派遣3万名技术人员为700个地理区域的1300万客户提供服务。如今如果在CPU上运行, AT& T的调度优化一需要整夜的时间。AT& T希望找到一个实时调度解决方案,能不断优化紧急客户需求和整体客户满意度,同时针对延误和出现的新事件进行调整。借助cuOpt,AT& T可以将查找解决方案的速度加快100倍并实时更新其调度方案。cuOpt还可以优化物流,每年有4000亿个包裹被投递到3770亿个站点。德勤、Capgemini, Softserve、埃森哲和Quantiphi正在使用NVIDIAcuOpt来帮助客户优化运营。 用于计算光刻的cuLitho:NVIDIA cuLitho计算光刻库可以通过计算技术大幅优化芯片制造流程,利用GPU技术实现计算光刻,可以使传统光刻技术提速40倍以上,为 2nm 及更先进芯片的生产提供助力。英伟达的计算光刻库在研发过程中,已经与3家全球顶尖的芯片制造厂商开展了长达4年的合作,包括晶圆制造巨头台积电、光刻机制造商阿斯麦,以及EDA巨头新思科技,目前3家厂商均已开始将该技术引入芯片设计和制造流程。 1.2、加速计算:适用于超级节能加速数据中心的新芯片,有效降低功耗,提升服务器吞吐量 云计算的发展受功耗限制,加速计算可以有效降低功耗。云计算发展至今,已经成为了价值1万亿美元的巨大行业,大约3000万台CPU服务器完成大部分处理工作。而挑战即将到来,随着摩尔定律终结,CPU性能提高也会伴随着功耗的增加;另外,减少碳排放这一任务从根本上与增加数据中心的需求相悖,云计算的发展受功耗限制。所有行业都需要加速各种工作负载,以便能减少功耗,达到事半功倍效果。 Grace可以加速AI工作负载,同时又有强大的单线程执行和内存处理能力。数据中心必须加速各种工作负载,加速将减少功耗,节省的能源可以促进新的增长; 未经过加速的工作负载都将会在CPU上进行处理,加速云数据中心的CPU侧重点与过去有着根本性不同。在AI和云服务中,加速计算卸载可并行的工作负载,而CPU可处理其他工作负载,比如Web RPC和数据库查询。英伟达为AI和云优先的行业设计了Grace CPU,其中AI工作负载由GPU加速,单线程执行和内存处理则是Grace的擅长之处。Grace包含72个Arm核心,由超高速片内可扩展的、缓存一致的网络连接,可提供3.2TB/s的截面带宽。Grace Superchip通过900GB/s的低功耗芯片到芯片缓存一致接口,连接两个CPU芯片之间的144个核,内存系统有LPDDR低功耗内存构成(与手机上使用的类似)。它提供1TB/s的带宽,是目前系统的2.5倍,而功耗只是其1/8。整个144核Grace Superchip模组的大小仅为5*8英寸,而内存高达1TB。 Grace的性能和能效非常适合云计算应用和科学计算应用。经过测试,在微服务方面,Grace的速度比最新一代X86 CPU的平均速度快1.3倍,而在数据处理中快1.2倍,而达到如此高性能,整机功耗仅为原来服务器的60%。云服务提供商可以为功率受限的数据中心配备超过1.7倍的Grace服务器,每台服务器的吞吐量提高25%。在功耗相同情况下,Grace使云服务提供商获得了两倍的增长机会。 图1:英伟达Grace和BlueField BlueField可以卸载并加速数据中心操作系统和基础设施软件,降低CPU功耗。 在现代软件定义的数据中心中,操作系统在执行虚拟化、网络、存储和安全任务时,会消耗近一半的数据中心CPU核心和相关功耗。数据中心必须加速每个工作负载,从而降低功耗并释放CPU给可创造收入的工作负载。NVIDIA BlueField卸载并加速数据中心操作系统和基础设施软件。Check Point、思科、DDN、Dell EMC、Juniper、Palo Alto Networks、Red Hat和VMWare等超过20个生态系统合作伙伴使用BlueField的数据中心加速技术来更高效地运行其软件平台。 BlueField-3已投入生产,并被领先的云服务提供商所采用以加速其云计算平台,比如百度、CoreWeave、京东、Microsoft Azure、Oracle OCI和腾讯游戏。 1.3、NVIDIA DGX AI超级计算机:DGX H100和DGX云服务发布 NVIDIA加速计算始于DXG(AI超级计算机),这是大语言模型实现突破背后的引擎,DGX已成为AI领域的必备工具。DGX配有8个H100 GPU模组,H100配有Transformer引擎,旨在处理类似令人惊叹的ChatGPT模型,ChatGPT是生成式预训练Transformer模型的代表。这8个H100模组通过NVLINK Switch彼此相连,以实现全面无阻塞通信,8个H100协同工作,就像一个巨型GPU,计算网络是AI超级计算机的重要系统之一,400Gbps超低延迟的 NVIDIA Quantum InfiniBand具有网络内计算功能,可将成千上万个DGX节点连接成一台AI超级计算机,NVIDIA DGX H100现在已全面投入生产,合作客户有Atos、AWS、Cirrascale、CoreWeave、戴尔、Gigabyte、谷歌、HPE、Lambda Labs、联想、Oracle、Quanta和SuperMicro等。 图2:英伟达DGX H100和DGX H100 AI超级计算机 生成式AI引发了全球企业制定AI战略的紧迫感,客户需要更简单快捷地访问NVIDIA AI,DGX云服务应运而生。英伟达宣布推出NVIDIA DGX Cloud,已经与MicrosoftAzure、Google GCP和Oracle OCI开展合作,通过一个浏览器就可以将NVIDIA DGX AI超级计算机即时地接入每家公司。GDX Cloud经过优化,可运行NVIDIA AI Enterpeise,用于AI端到端开发和部署。这一合作将NVDIA的生态系统引入到了云服务提供商NVDIA触及的范围得以扩展。Oracle Cloud Infrastructure(OCI)将成为首个NVIDIA DGX Cloud。OCI具有出色的性能,它拥有两层计算网络和管理网络,具有业界最佳RDMA功能的NVIDIA CX-7提供了计算网络,而BlueField-3将成为管理网络的基础设施处理器,这种组合是一款先进的DGX AI超级计算机,可提供多租户云服务。 1.4、NVIDIA AI Foundations:AI领域的代工厂 NVIDIA AI Foundations可为客户构建自定义的大型语言模型。生成式AI是一种新型计算机,一种可以用人类语言进行编程的计算机,这种能力影响深远,每个人都可以命令计算机解决问题,而这之前是只有程序员才能接触的领域。生成式AI是一种新型计算平台,与PC、互联网、移动设备和云类似,不断地有新公司利用生成式AI的自动化和协同创作能力。而一些专业领域的公司需要使用其专有数据来构建定制模型,他们需要制定使用规范并优化模型,以契合公司的安全、隐私和安保要求。这个行业需要一个类似台积电的代工厂,来构建自定义的大型语言模型。英伟达推出了NVIDIA AI Foundations。这是一项云服务,面向需要构建,优化和运营定制大型语言模型和生成式AI。使用其专有数据进行训练,用于处理特定领域的任务。NVIDIA AI Foundations包括语言,视觉,和生物模型制作服务。 (1)NVIDIANemo:用于构建定制的语言文本转文本。客户引入自己的模型,或者从Nemo预先训练的语言模型开始,包括GPT 8、GPT 43和GPT 500等数10亿参数的预训练模型入手。从创建专有模型到运营,NVIDIA AI专家将全程服务支持。 (2)视觉模型PICASSO:PICASSO是一项视觉语言模型制作服务,面向希望使用许可内容或专有内容,来训练自定义模型的客户。药物研发是一个价值近2万亿美元的行业,研发投入高达2500亿美元。NVIDIAClara是一款医疗健康应用框架,用于影像仪器、基金组学分析和药物研发。目前行业正在转向利用生成式AI来发现疾病靶因,设计新型分析或蛋白质类药物,以及预测药物对机体的作用。有些公司已经发现了新型靶标或候选药物,并开始了人体临床试验。 (3)生物学模型BioNeMo:BioNeMo可帮助研究人员使用专有数据创建、微调和提供自定义模型。NVDIA BioNeMo服务提供先进的用于药物研发的生成式AI模型,它可作为云服务提供,让用户即时轻松地访问加速的药物研发工作流。 借助NVIDIA DGX Cloud,BioNeMo还可提供按需超级计算基础设施,以进一步优化和训练模型。 图3:NVIDIA Picasso示例 图4:NVIDIA BioNeMo示例 1.5、新推理平台:四种配置,针对不同工作负载进行的优化 英伟达推出全新四种配置的推理平台,以满足不同场景下的算力需求。设计一个云数据中心来处理生成式AI是一项巨大挑战,一方面,理想情况下最好使用一种加速器,因为这可以是的数据中心具有弹性,能够应对不可预测的流量峰值和低谷;但另一方面,没有一个加速器能以最优的方式处理在算法、模型、数据类型和数据大小方面的多样性。NVIDIA的One Architecture平台兼具加速功能和弹性。 英伟达宣布推出全新的推理平台:四种配置——一个体系架构——一个软件栈,每种配置都针对某一类工作负载进行了优化: L4:针对AI视屏工作负载,它针对以下方面进行了优化:视频解码和转码、视频内容审核以及视屏通话功能,例如背景替换、重新打光、眼神交流、转录和实时翻译。如今、大多数云端视频都在CPU上处理,一台8-GPU L4服务器将取代一百多台用于处理AI视频的双插槽CPU服务器。 L40:针对Omniverse、图形渲染以及文本转