您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:AI服务器专家交流纪要20240704 - 发现报告
当前位置:首页/会议纪要/报告详情/

AI服务器专家交流纪要20240704

2024-07-04未知机构灰***
AI服务器专家交流纪要20240704

AI服务器专家交流纪要 Q:当前AI服务器市场的大厂需求如何? A:目前AI服务器市场呈现出显著增长态势,尤其在2023年的第一季度和第二季度。相较于2022年全年约120万台的GPU服务器需求,2023年预计将增长至160万台左右 ,增长率明显。北美地区的主要云计算服务提 供商(CSPs)如亚马逊、微软、谷歌等,全年预估增长幅度在20%至30%之间。Q:亚马逊的AI服务器需求具体如何? A:亚马逊在2023年的AI服务器需求预计达到17万台。其中,NVIDIA预计将获 得约25%的市场份额,即4.5万台左右的订单。值得注意的是,这里的AI服务器涵盖了中低端、高端以及自研服务器等多个类别。 Q:GB200服务器的订单情况如何? A:GB200服务器的订单开始显现,但主要的发货时间点集中在2023年第三季度末至第四季度。NVIDIA预计在9月份交付部分样机,数量在几十台左右。主要客户包括海外的抖音(TikTok)、AWS、谷歌以及微软。GB200服务器的首批交付将包含不同配置版本,包括72GB和36GB两种型号。 Q:GB200服务器的报价情况? A:GB200服务器的报价因配置而异,其中36GB版本的报价大约在360万美元左右, 而72GB版本的报价约为170万美元。需要注意的是,这些价格会根据客户的具体需求和定制化选项有所浮动,最终客户可能会通过成 本优化措施降低实际采购价格。Q:TikTok的GB200服务器部署计划? A:TikTok计划在美国的数据中心部署GB200服务器,尤其是72GB高密度版本。这些数据中心均为新建设施,具备支持高功率密度服务器的能力,例如单个机柜可达 120千瓦。不过,关于美国新建数据中心的高密度供电能力,尚无具体统计数据,但初步估计至少需要20兆瓦的电力供应。 Q:高密度数据中心的全球部署趋势? A:TikTok短期内将在美国部署GB200服务器,长期来看可能会扩展到欧洲。除欧美之外,东南亚地区的部署暂 时受限。然而,北美地区的大型CSPs如亚马逊,由于在全球范围内拥有广泛的数据中心网络,可以根据业务需 求灵活部署服务器,这意味着未来有潜力在全球各地增加高密度数据中心的数量。Q:北美数据中心的业主是谁? A:北美数据中心的业主通常是本地的运营商,负责数据中心的建设和运维。具体到与我们合作的业主 ,我们直 接对接的是这些本地运营商,但具体是哪家,需要进一步确认。数据中心通常分布在美东和美西两大区域,比如圣何塞和华盛顿附近,以满足不同地区的服务需求。Q:Q4交付的服务器主要用于哪些客户? A:Q4交付的服务器主要分为两大客户群体:字节跳动和AWS。其中,AWS的需求量较大,约占36%,而字节跳动则占据了剩余的份额。在交付给字节跳动的服务器 中,有一部分会包含定制化元素,以满足其特定需求。Q:服务器价格差异的原因? A:服务器价格的差异主要源于定制化程度的不同。其中,NVIDIAGPU的价格相对固定,由供应商定价,而液冷系统的定制则是影响价格的关键因素。液冷系统的设 计需要考虑机房环境、CPU散热标准以及客户端的液冷设施,因此在机柜和服务器上的管路设计、冷板和冷却 模组的功率等方面会有差异,导致价格波动。Q:字节跳动机房的液冷设置如何? A:字节跳动在与伟丽的合作中,探讨了机房液冷系统的设计,包括CDU(CentralDistributionUnit)的部署方 案。伟丽作为总包商,负责CDU的供应,但不涉及二次侧的manifold(分配器)和loop(循环管路)组件。CDU可以内置于机柜中,形成一体化的解决方案,也可以外置于机房内,采用一拖几的方式服务于多个机柜。 目前,客户更倾向于内置CDU的方案,因为其安装和维护更为便捷。Q:AWS的液冷解决方案是什么? A:AWS采用的液冷解决方案与字节跳动类似,但具体配置可能有所不同。AWS倾向于使用内置CDU的方案,即将CDU集成在机柜内部,实现更紧凑、高效的数据中心布局。这种内置方案便于现场的管路连接和维护,提 升了数据中心的运营效率。Q:液冷系统定制化服务范围? A:液冷系统定制化服务涵盖了从机柜管路设计到服务器冷却模组功率调整的全过程。这包括了根据机房的具体 环境和客户需求,设计适配的管路标准、冷板和冷却模组,以确保服务器在高负载运行时的散热效果,同时满足能效和环保要求。定制化服务的目的是优化液冷系统 与硬件设备之间的匹配度,提升数据中心的整体性能和可靠性。 Q:AW在冷却分布单元(CDU)的选择上采取了何种策略,是倾向于内置设计还是外部设计? A:AW最初似乎选择了内置设计的CDU方案。不过,随着项目进展,我们会根据数据中心的整 体设施状况重新评估这一决定,判断是否需要转向外部设计。如果最终确定采用内置设计,那么CDU的实施将由我们自行负责,而非外包给第三方。 Q:即便选择了内置设计,CDU是否仍需从外部供应商处采购?NVIDIA在这一过程中扮演什么角色? A:确实如此,无论采用内置还是外部设计,CDU均需从外部供应商处采购。NVIDIA在初 期供应阶段起到了关键的推荐作用,他们会推荐特定制造商,如Invec,而我们则会将这些推荐与 国内供应商进行对比,以寻找最符合成本效益和可靠性标准的选项。选择供应商并非完全由客户决定,我们自身拥有决策权,可以依据具体需求自由挑选。 Q:面对未来NVIDIA推荐组件市场份额可能下降的情况,公司如何规划,特别是在扩展至新数据中心时?A:预计NVIDIA推荐组件的市场份额将会随时间逐渐减少,特别是在我们向新地点 拓展时。每年,我们都会针对新建数据中心进行一轮招标过程,在此期间,客户会要求ODM厂商降低报价。为了实现成本节约,我们首 先会考虑机器外部组件的降价潜力,比如CPU和液体冷却系统。虽然机器内部组件的成本削减同样可能,但其 影响范围更广,需要进行更多的测试和验证工作。 Q:在成本控制方面,CDU是否有可能成为ODM厂商的关注点,还是说他们更倾向于将其留给专业供应商处 理? A:实际上,CDU并不被视为ODM厂商的重点关注对象。尽管技术上ODM厂商有能力承担CDU的设计和生产,但由于CDU的价值量相对较低,且与服务器等核心业务不在同一数量级,大部分ODM厂商不愿意在此领域投入过多的研发资源。因此,引入诸如Master、Invec 等专业供应商,由他们提供CDU解决方案,成为了一个更为合理的选择。这遵循了“术业有专攻”的原则,即专注于各自的核心竞争力。 Q:关于冷却系统的流速控制,您提到伟帝工程师和销售团队强调了其在软件控制方面的优势,尤其是在流 速、水压控制及防腐蚀方面的稳定性与可靠性。您如何看待这一观点,以及客户是否会因价格差异而冒险更换供应商? A:对于伟帝工程师和销售团队提出的观点,我个人持保留态度。伟帝的确在软件控制、流速和水压管理以及 防腐蚀技术上具备一定优势,但这并不构成绝对竞争优势。实际上,国内一些供应商的整体报价相较于伟帝低约30%,这在成本敏感的市场环境中颇具吸引力。尽管伟帝在系统稳定性和可靠性方面表现出色,客户在评估供应商时,除了考虑技术优势,还会综合考量成本效益。即使微小的价格差距也可能促使客户重新考虑供应商选择,特别是在数十亿美元级别的数据中心投资背景下,任何可能导致运行风险的因素都会被慎重对待。Q:您认为国内制造商如英维克专注于自身发展是合理的吗?此外,您认为英维克是否有机会进入AWS或微软等大公司的供应链?A:国内厂商,如英维克,专注于自身技术与市场适应性的提升是合理的,尤其是考虑到其主要服务中国客户。从长远角度看,若无国家政策限制,英维克确实有机会进入如AWS或微软的供应链。关键 在于英维克能否成功打入台系ODM厂商的供应体系。一旦英维克能够大规模地为这些ODM厂商 提供服务,它将有很大可能直接成为AWS的供应商之一。Q:在选择供应商时,台湾厂商更倾向于什么类型的合作伙伴?这如何影响英维克的市场前景?A:台湾厂商往往偏好价格更低廉的供应商。在国内市 场,英维克和其他国内厂商在价格上具有竞争优势。对于北美客户,如果数据中心位于美国,他们可能优先选择美国本土供应商,这对英维克构成挑战。然而,如果数据中心设在美国以外地区,如东南亚,英维克则有很 大的机会成为供货商,因为从美国进口CDU(冷却分配单元)会带来较高的运输成本和关税,这使得国内供应 商更具吸引力。Q:除了英维克,您认为还有哪些国内厂商有机会在CDU市场取得突破? A:英维克在国内市场份额较大,除此之外,台达、技嘉等厂商也在CDU领域有所涉猎,尽管它们的产量相对较小。欧洲的一些厂商倾向于本地采购,如艾默生和微图 在CPO(冷却性能优化)领域有所作为。此外,还有来自丹麦的Asetek、中国的高澜节能等企业值得关注。 ………………Q:明年整体市场需求预测? A:对于2024年和2025年全年的市场需求,预计总需求可能在56000柜左右。其中 ,2024年的需求预计在5000至6000柜之间,而2025年需求可能接近5万台 。考虑到市场需求的不确定性,实际发货量可能会跨越年度,部分2024年的订单可能推迟至2025年初交付。 Q:富士康的订单量与市场预期? A:富士康声称已获得几万台GB200机柜的订单,但实际可达到的量可能在15000柜左右 。这15000柜中,约有4000柜是为英伟达代工的D9X系列,专供超算中心、国防及科 研机构等特殊客户。其余11000柜则主要面向云计算服务提供商(CSP)客户,其中微软可能是最大买家。市场预期微软的总需求在2万柜左右,而AWS的订单量可能在12000至150 00柜之间。 Q:微软与AWS的机柜需求分析? A:微软的2024年需求预计不会超过2万柜,具体数量取决于其业务部署情况。而对于AWS ,其2024年需求可能在12000至15000柜之间,其中推理业务的机柜(以36柜 为主)可能占60%,而训练业务的机柜(以72柜为主)占40%。这种比例反映了AWS业务的多样化需求,36柜因其较低的成本,在推理业务中更受欢迎。 Q:Meta的H100GPU消耗能力及2023年的GB200服务器采购预测?A:Meta在2023年可能难以完全消耗其H100GPU库存,因此对于GB200服 务器的采购量,预计在6000台左右。这一预测反映了Meta在处理高性能计算资源时的谨慎态度,以及市场供需关系的实际考量。 Q:谷歌的GPU采购趋势及其GB200服务器需求预测?A:谷歌在CPU产品线自用的同 时,其GPU采购量持续上升,显示出对高性能计算资源的强劲需求。预计到2025年,谷歌对于GB200服务器的采购量不会超过1万台,大约在7000到8000台之间。这表明谷歌 在平衡成本、性能与市场需求方面采取了审慎策略。Q:市场主要玩家的GB200服务器采购预测汇总? A:综合市场分析,谷歌的采购量约为8000台,Meta约为6000台,AWS在12000至26000台之间,Microsoft则在24000台左右。此外,市场总量预计 为56000台,其中10000台将由渠道商采购。渠道商倾向于从□SuperMicro、Dell、HP等品牌购买物理机,而非直接从ODM厂商或大型云服务商处采购。Q:SuperMicro、Dell、HP等品牌在GB200服务器市场的预期表现?A:SuperMicro预计能够售出约5500台GB200服务器,而Dell有望达 到3000台,HP则可能售出2000台左右。这些预测基于市场分析和对未来需求的评估,反映 出渠道商对高性能计算资源的兴趣逐渐增长。Q:SuperMicro的市场预期与其自身管理目标的对比? A:SuperMicro管理层的目标是月产能达到1000台GB200服务器,年度目标市 场量为1万台以上。然而,市场实际需求受制于业务场景的拓展,特别是推理业务的落地情况。实际销量可能无法达到管理层的激进预期,反映 出市场实际需求与企业战略之间的差异。Q:NVIDIACEO黄仁勋推动GPU业务多元化的影响? A:黄仁