您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:算力专家解读英伟达GH200电话会纪要–20230529 - 发现报告
当前位置:首页/会议纪要/报告详情/

算力专家解读英伟达GH200电话会纪要–20230529

2023-05-30未知机构甜***
算力专家解读英伟达GH200电话会纪要–20230529

Þ点内容关注标红部分2问答环节: Q:英_达GH200对光模块和PCB厂商有什么影响? 1Ā光模块ÿ光模块更多在系统之间的高速à联,除了 100G和200G国内兼容性好,英_达CX7à种400G高端场o,国产支持不太好2另外à些系统实×对光模块需求量不是很大,除非是大规模集群设计2 综合认~在大规模AI场o中,国内光模块厂商不会扮演Þ要角色Ā他们更多在信创1`统数据中心ÿ25G1100GĀà些中低端市场p一些份额2 2ĀPCBÿ对PCB要求越来越高,封装对基板要求也更高Ā高端PCB需求可能会高速增长2 Q:PCB的ASP会提升,但PCB用量是下降的? 整体PCB量没p明显O降,而ASPN升,对PCB厂商是好事2 Q:GH2001MI300封装技术的优点是什么?渗透速度会如何? 对于需要完整一体化方案的场op优势,高度集成1性能提升30%-40%ÿ保证CPU和GPU之间内`一致性Ā,对于英_达è广自ýß服务也是好的解决方案2 但对于很多à联网厂家不是很愿意,他们希望更开的设计,否则û能绑定在N述产品架构N,而ÿ格溢ÿ能力变弱Ā大的市场可能不会p很大市场份额,小于10%2英_达è出GH200要用于弥补CPU体系不足,构建完整 的生态,不要过分依赖于CPUx86ÿ境ĀAMD则是要用于跟英_达竞争2 Q:寒武纪跟百度合作的情况怎么样,百度有没有使用思元590? 百度文心一言没p使用思元590,û是早期做了适配,小规模部署500多片,实×N线并没p使用Ā目前要用A100和昆仑芯2ï2 之前是建立开发团队配合开发,但实×部署结果来看,590性能指标不如A100,而架构不太兼容1难度大,所ñ百度没p用. 寒q纪目前的产品不太适合大模型迭ï,软þ生态问题比较大Ā比如百度模型在不断迭ï中,而每次迭ï都需要思元590进行适配和优化,ý作量太大,不适合百度开发Ā另外架构和指ð集都比较特殊,不可ç因素太多 未来发展N需要进行流几个框架的支持,但目前支持都不太好,大模型场o使用p难度2 Q:快手`言使用了寒武纪思元590? 快手没p使用大模型,û是使用了一些`统AI技术1小模型,不涉及大规模系统并行,思元590可ñ支持2 Q:国内芯片厂商Ý沐曦相对好一些? 沐曦综合情况好一些ÿ软þ跟CUDA兼容,团队是AMD原来开发MI200的€心团队Ā,但产品ß没出来,û能做初p评ÿ2 Q:A100和H100在国内受限,国内下游厂商是不是对国产芯片持开放态度? 态度开,都需要找一些替ï产品进行衡,但性ÿ比是关键因素2 Q:模型迭代是否使得推理算力需求降低? 未来头部大厂会出Ā预训练大模型,而更多模型会是垂直领域小模型,对算力需求碎片化Ā大规模算力ûp头部厂商p需求,w他厂家û需要小模型1小算力2 不过整体需求ß是快速增长,特别是è理需求,训练需求可能慢慢缓2 Q:国内厂商算力储备大概什么量级?向英_达采购量增长多快? 目前大厂各自手中估计p2k-3k片A100`货量,o前购买的大部分被常规业务占p,比较难拿出富裕算力ÿ除非要把Āp业务停掉,能凑出万片þ右进行训练Ā2 国内à联网厂家3o份向英_达进行38亿美元采购,€ß才能Ø续交货,持续交货到2024€Ā所ñ后面短期可能增速变慢2 Q:AMDMI300的性能怎么样?进展如何?价格水平?未来空间? 1Ā性能ÿMI300等比性能接近MI250两倍,整体性能Þ该是H100的1.5-2倍Ā€心架构类似英_达GH200Ā软þ支持对CUDA兼容22Ā进展ÿ国内对ÞüMI388,8o份可能提供测试品Ā认~是非常强的产品2 3Āÿ格ÿMI388国内大概2.2-2.4万美金,非常接近H8002 4Ā用途场oÿ跟GH200完全一致,可ñ用于HPC1AI计算ÿ性能很高,因~集成了CPU,不再需要单独CPU,板子Nû需要MI300Ā2 5Ā竞争空间ÿ对英_达GH2001H100形成竞争压力,性ÿ比x备优势Ā但在AI领域,MI300ßp一定距离,要是软þ兼容性p一定差距ÿ虽然支持CUDA兼容,但维护团队不够,并跟目前y型大模型ß没p适配案例,客户不了解Ā2 Q:MI300下游客户有谁? 国×要是HPC场o,比如€府超算Ā国内_节1腾讯在做测试,但因~软þß不是很成熟,所ñû能做算力评估,ß不能做综合性能1大模型使用场o的评估2 Q:哪些厂家扶持AMD竞争NVDA? 国内外厂家都积极在跟AMD接触,比如微软1AMD1_节1腾讯,他们都对英_达的溢ÿ和垄断体系p一定的诟病2 PPT环节: 大模型生产流程更简单,但对基础设施要求更高 国内外算力市场发展区别: 1Ā国内厂商流集群规模小ÿ比如A100Ā,很难p_门用于大模型训练的集群Ā国外p大量流集群2Ā国内开发框架不开源,模型市场分化Ā国外集中单 一,开源,生态好 3Āx体模型N,国内大部分是基于国外开源进行微调,多数没p掌握€心Ā国外开始向垂直领域渗透4ĀÞ用方面,国内ñ内场Þ用~,节奏较慢 国内大模型偏好ÿ看好智谱1复旦,在部分研究场op优势2 硬þ出货量ÿ23€市场增速快,英_达季度增速更快ÿ原因考虑是单季客户爆发性增长,全€可能不如Q2ĀĀ24 €之后算力n及,增速进入稳2 训练和è理比例ÿ国内训练和è理比例一般是1:4,而国外1:7 目前认~ûpGPGPU/ASIC能满足大模型算力场oĀ`算一体也能用,w他像CPU1DPU1FPGAþ经不太能使用大模型场o2 华~ÿ昇腾910由于不太支持FP32,必须依赖华~自身软þ生态1需要华~深度优化及ï码移植,开源大模型很难在910N使用Ā920能够达到A100性能1.7倍水,不过供货量可能不足,ÿ格可能也居高2 阿Ýÿ产品低调,担心美国调查2 昆仑芯ÿ€ß计划做3ï,目标是训练,但实×看可能更适合è理2 沐曦ÿN100出货几百片1几十万元,O一ï产品C100,目标训练场o,性能对标H100,并兼容CUDA,比较期待2 寒q纪ÿ思元590整体算力综合性能大约是A100的70%,指ð兼容性差,影响部署Ā思元590BO一ï产品,性能指标大约是A100的1.5倍,但同面临软þ生态影响,ñ及供Þ链问题2 o嘉微1芯动1摩尔线程1兆芯ÿ都是GPU,整体性能都比较低,除了摩尔线程能满足AI小模型训练和部分è理场o,但软þ不太行,ûp小量测试使用Āw他3家都不太能用于AI2 海光ÿ类似AMD第一ï产品MI50,性能类似英_达P100,软þ生态不错,可ñ用于大模型Ā但海光整体策略 在HPC领域中,在AI领域没p多少投入,使用案例少2