您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:国盛:AMD数据中心和AI技术会议纪要-20230614 - 发现报告
当前位置:首页/会议纪要/报告详情/

国盛:AMD数据中心和AI技术会议纪要-20230614

2023-06-13国盛证券؂***
国盛:AMD数据中心和AI技术会议纪要-20230614

AMD扩展第四代EPYC(霄龙)CPU 产品组合,推出面向云原生和技术计算工作负载的领先处理器,并推出InstinctMI300加速芯片。 1.GenAMDEPYCGenoa和GenoaX:第四代AMD EPYC(霄龙)处理器系列中的每款产品都经过量身定制,可在通用、云原生或 技术计算工作负载中提供引人注目的领先性能。 AMDEPYCGenoa在云工作负载中的性能是英特尔竞争处理器的1.8倍,在企业工作负载中的速度是英特尔竞争处理器的1.9倍。 Genoa-X是AMD第一代V-cache的Milan-X的继任者。AMD 正在使用缓存芯片堆叠为其他常规的GenoaZen4CCD添加更多的L3缓存,为AMD 提供了一种生产高缓存芯片设计的新颖方法,而无需实际布局一个完整的独立芯片。在这种情况下,Genoa/Genoa-X芯片上有12个CCD,这允许AMD向芯片添加768MB的额外L3缓存。 AWS客户分享 自2018年以来,AWS一直与AMD合作,为客户提供AmazonEC2instances。现在我们看到客户希望将新型应用程序引入AWS,例如金融应用程序、应用程序服务器、视频转码和模拟建模。AWSNitro系统的第四代AMDEPYC 处理器,将为我们的客户推进云技术,让他们在更多的AmazonEC2实例上以更好的性能做更多的事情。 AMDEPYC处理器的新AmazonEC2M7aInstances现已提供预览版。EC2M7aInstances还提供新的处理器功能,例如AVX3-512、VNNI和BFloat16,并允许客户获得比M6a实例高出50%的计算性能,并为AWS带来更广泛的工作负载。 2.Bergamo: AMDEPYC“Bergamo”或EPYC97×4系列为“Zen4c”的核心。这个核心的简单思路是AMD正在减少L3 缓存,以便可以在每个CCD上安装更多。AMD表示,其Zen4c内核比Zen4内核小35%,这主要是由于减小了缓存大小并优化了其占用空间。 AMD推出了全新系列的处理器,即AMDEPYCBergamo,每个插槽最多有128个内核和256个线程。鉴于2U4在市场上的流行,这将使2U4N 平台成为2048线程机器或每个U具有1024个内核的机器。AMD的方法很简单,这一代是用高速缓存大小换取核心密度,这是AMD有史以来最伟大的产品发布之一。 Bergamo现在正在向AMD的云客户发货,以下为AMD分享的性能基准。Meta客户分享 Meta和AMD自2019年以来一直在合作开发史诗级服务器设计,随着时间的推移,与Milan、Genoa和现在Bergamo的合作一直在扩大。我们密切合作,定制AMD的架构,以满足meta的能效和计算密度要求。这些优化包括,硬件和软件堆栈层、Zen内核、soc组合、固件、内核性能、软件。我们过去开源了AMD Milan的服务器设计,打算对我们最新的bergamo代大容量服务器做同样的事情。 我们已经在全球数据中心部署了数十万台AMD服务器,这些服务器运行着数千个工作负载,为WhatsApp、Instagram、Facebook和我们的产品组提供服务 。我们还为视频转码和存储系统部署了AMD服务器,并在AI计算平台上使用AMD CPU。我们的规模很大,规模和增长率自然会给我们的供应商带来压力。多年来,AMD一直致力于履行这些承诺,无论是通过供应还是技术产品路线图创新 ,我们都印象深刻,并了解到我们可以依靠AMD按时交付。 我们非常高兴准备将bergamo部署为下一代大容量元计算平台,看到Bergemo对Milan的表现有了显著的提高,大约是2.5倍。 基于AMD通Bergmo实现的核心芯片创新,与AMD合作我们更添加了其他几项优化,以帮助我们的工作负载,包括密集计算、核心与缓存比率、电源管理和制造优化。凭借对Bergamo的芯片策略的灵活性,我们也很高兴拥有一个i/o密集型服务器选项。 3、AMD3DV-CacheTechnologyAMD3DV-CacheTechnology 一年前的6月,我们推出了针对不同工作负载进行优化的产品组合,今天推出两款新产品。 对于设计和制造实体产品的企业和公司来说,工程仿真是至关重要的。这些公司需要业界最顶尖的工程师,并得到最好的计算基础设施的支,能够更快、更高效地行动的公司通过更快地进入市场,提供更具创新性和更高质量的产品来实现差异化,并在减少运营预算的情况下实现这一目标。 考虑到这些目标,我们开发了第二代AMD 3DV-Cache,在96核CPU上支持超过1GB的三级缓存。更大的缓存可以更快地为CPU提供复杂的数据集,并为处理器和工作负载优化提供了一个新的维度。我们去年首次在MilanX推出这项技术,现在我们将其带到第4代史诗处理器,AMD 3DV-Cache,代号GenaX。我们将提供4个新的SKU,从16核到96核,与热那亚的插座兼容。GenoaX有助于释放世界上最重要和最苛刻的技术计算工作负载的潜力。 从飞机发动机到最先进的半导体,新产品的快速设计和模拟在当今市场势在必行。虽然Genoa是市场上最快的通用服务器处理器,但Genoax将这种性能提升到了技术计算的新水平。我们正在与我们的合作伙伴一起提供 所有这些性能,包括来自Ansys的数字制造软件,以及来自cadence、siemens和synopsis等公司的EDA软件。 这些数据表明,在这些应用中,96X处理器的性能提高了一倍以上。即使在比较具有相同内核数的进程时,性能优势仍然非常明显。因此,所有这些性能和软件都将通过行业顶级原始设备制造商的服务认证,并且具有genoX的平台将于下个季度推出。 真诚感谢我们的软件和OEM合作伙伴关系,我们增加了解决方案的数量,以行业领先的性能和效率进一步服务于技术计算市场。 微软客户分享: 我们在2019年开始合作,推出了第一代Epic处理器的第一款hbvms,我们可以在云中运行10000个核心。2020年,我们推出了第二代处理器,我们进入了前10名超算的排名,开始真正抓住市场的势头。2021年,我们推出了第三代系列 ,在Milan推出的那天。去年,我们进一步加强了这一点。我们宣布,我们将用AMD的3dvcache升级我们的第三代系列,它为我们的客户提供了80多种性能,无需额外费用。在短短4年内,我们已经为我们所有的hpc客户提供了4倍的性能。 今天宣布我们的HBv4系列产品全面上市。除此之外,我们还有一个新的内存优化HPC虚拟机。 如果您查看我们的第4代HBv系列,它提供每秒1.2TB的内存带宽,现在我们可以提供4.5倍的HPC工作负载,这可以支撑是像子动力学、金融建模、天气模拟、各种虚拟化渲染这样的工作负载,这就是我们从AMD中获得的效率和云的规模相结合的美妙之处。现在,对于一些数据密集型的工作负载,如硅设计、结构分析,这将提供6倍的性能,这是惊人的。因此,对于这些客户中的许多人来说,这意味着他们现在可以在相同数量的内核上安装许多现有的工作流。 因为真正的测试最终是客户的采用。所以我今天有两个客户想谈谈。 Petronas:众所周知,马来西亚国家石油公司是一家全球能源公司,他们在全球数百个国家/地区开展业务,实际上他们是第一家使用新的AzureHBv4的公司。现在与石油学家一起,试图看看他们如何能够进行上游工作,即进行高度复杂的定量解释、地震处理等,这些工作负载确实需要大量内存带宽 ,他们需要高性能计算的能力,这就是石油学家与Azure合作的地方。 我们实际上与AMD密切合作,以确保我们能够带来这些新的虚拟机,我们实际上可以将其与我们的许多AI工具结合起来,真正加速他们在地球物理学家那里所做的工作,并帮助他们更快地做出决策。除了业绩之外,马来西亚国家石油公司还致力于实现企业可持续发展目标。有了Azure,因为到2025年我们将实现100%的可再生能源,我们不仅让马来西亚国家石油公司真正实现了他们的绩效目标,而且我们还让他们能够在2050年前实现净零碳排放。总而言之,这意味着当客户关注云的性能和可扩展性时,他们可以真正从我们提供的产品中受益。 ST life.augmented:ST是一家领先的半导体公司,他们实际上是第一家使用我们Azure HX-Series的公司。同样,这是我们全新的产品。ST将用它来设计他们的下一代芯片。随着流程技术越来越深入,芯片设计需要的内存延迟低,内存占用大 ,这对于HX系列来说是完美的。HX允许ST做的是,他们能够在每个虚拟机中打包更多的模拟作业,这反过来意味着他们需要更少的虚拟机。通过他们最近所做的实验,ST已经能够将模拟时间缩短30%。这意味着他们的硅工程师实际上可以看到更多的设计可能性。他们可以提高产品质量,因为他们现在正在做更多的验证。但最终,他们可以更快地将产品推向市场,他们不必担心任何事情。由于我们的合作,他们可以在云中完成所有这些。 CITADEL客户分享: CitadelSecurities与AMD高管Norrod谈论他们将工作负载转移到AMD的处理器上,推动性能提高35%。他们使用超过一百万个并发AMD 内核。还通过其高频交易平台将AMD的赛灵思FPGA 用于其在金融市场中的工作,它还使用AMD的低延迟solarflare网络。 AMD收购Pensando以获得DPU技术。 Norrod解释了AMD如何使用这些设备来减少数据中心的网络开销,AMD的P4DPU减轻了网络开销并提高了服务器的可管理性。AMD的PensandoSmartNIC是新数据中心架构不可或缺的一部分,下一步将P4DPU 卸载集成到网络交换机本身,从而在机架级别提供服务,与ArubaNetworks一起开发的智能交换机。 由大型语言模型(LLM)驱动的AI市场的巨大市场机会,导致TAM增长到约1500亿美元,AMDInstinctGPU 已经为许多世界最快的超级计算机提供动力。 4、AI及软件开发-Rocm 我们在构建与模型、库、框架和工具的开放生态系统配合使用的强大软件堆栈方面取得了巨大进展。 AMD 7040,这是第一款集成AI加速器的CPU。在嵌入式领域,我们正在向多个市场的领先客户AI产品,包括汽车和工业等市场。 数据中心GPU,我们正在与微软和其他领先的云服务提供商等领导者以及许多灵活、非常创新的小公司合作。我们看到对我们的GPU的需求也在大幅增长。实现应用程序性能确实需要领先的软件堆栈,以及优化的生态系统。 Rocm,它是我们数据中心GPU的软件堆栈。Rockham是一套完整的库、运行时编译和工具,用于开发、运行和调整AI模型和算法。Rocm堆栈的很大一部分实际上是开放的。我们的驱动程序、语言、运行时工具(如调试器和配置文件)以及我们的库都是开放的。Rocm还支持AI软件生态系统,包括开放框架 、模型和工具。 现在Rocm实际上已经是第五代了,它包括一套非常全面的AI优化以及高性能计算。对于AI方面的示例,我们针对大型语言模型优化了内核。现在,为了确保Rocm的质量和健壮性,我们每晚运行数十万个框架测试,并在数千个AI运算符和10个模型中进行广泛的验证 PyTorch客户分享 PyTorch是业内最流行的AI框架之一,它被您熟悉的几家公司使用,Meta显然是其最大的用户之一,还有openai,特斯拉,几乎就像行业中的每个人在使用AI时可能会以某种形式使用pytorch。pytorch是神经网络训练和入口等AI的基础软件。我们最近发布了pytorch20,它构建了一个编译器,可以让你的速度比之前开箱即用的pytorch快50%到100%。 Pytorch和AMD合作可以追溯到几年前。AMD和meta一直在以各种形式进行合作,pytorch主要来自meta,这是一个多年的合作。我们一直在给AMD很多方面的反馈,比如理想的运行AI工作负载的硬件和软件。在Rocm启用的Instin