您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:AI算力需求及模型迭代的趋势 - 发现报告
当前位置:首页/会议纪要/报告详情/

AI算力需求及模型迭代的趋势

2024-01-24-未知机构L***
AI算力需求及模型迭代的趋势

Q&A Q:当前国内AI算力的需求与供给现状如何? A:截止目前,国内主流互联网企业和科研机构在AI算力发展上已取得显著进步,到2023年基本接近GPT-3.5的算力水平。自去年下半年特别是第四季度以来,各方正积极布局以追赶国际领先的GPT-4标准。已有国内模型在性能上逼近GPT-4的80%-90%,但实现这一目标所需的算力是GPT-3.5的约10倍。 Q&A Q:当前国内AI算力的需求与供给现状如何? A:截止目前,国内主流互联网企业和科研机构在AI算力发展上已取得显著进步,到2023年基本接近GPT-3.5的算力水平。自去年下半年特别是第四季度以来,各方正积极布局以追赶国际领先的GPT-4标准。已有国内模型在性能上逼近GPT-4的80%-90%,但实现这一目标所需的算力是GPT-3.5的约10倍。 据估算,GPT-3.5需要大约4000PFLOPS算力,而GPT-4则预计需求在30000至50000PFLOPS之间,其中30000PFLOPS是一个相对保守的估计。 尽管清华大学等单位声称在技术上有所突破,但在实际体验和技术架构层面上,我国仍存在与GPT-4真实性能之间的显著差距。鉴于此,短期内中国厂商要推出一款真正达到或接近GPT-4性能的模型挑战较大,可能需等到第二季度甚至年底才能实现。因此,国内AI算力供应严重不足,能够支撑冲刺GPT-4级别的企业屈指可数。 Q:国内目前面临的算力缺口具体有多大? A:国内获得大模型开发许可的厂商已超过十家,若每家企业都意图对标GPT-4,考虑到所需算力的大幅增长,目前我国整体算力供应无法满足全部这些需求。所以,国内确实面临一个较大的AI算力缺口。 Q:近期国内AI算力需求和供给的变化情况怎样? A:目前,国内对AI算力的需求方呈现强劲态势。在国内能实现相当于GPT-3.5级别模型的企业约为10余家,但从算力层面完全比肩GPT系列的仅腾讯、字节跳动及阿里巴巴等少数几家巨头,它们去年大规模采购英伟达显卡,单个公司采购量高达数万片。 其他企业欲迎头赶上,则需另寻解决方案,因为需求侧瓶颈依旧明显。同时,自去年第四季度起,各类产品的活跃用户数量激增,推动了推理端算力需求持续攀升,月增长率至少保持在15%左右,虽然增速不及训练端的两至五倍之多,但其重要性日益凸显,并且随着业务的发展,推测在未来第二季度某些公司的API服务可能出现配额限制的情况。 此外,如上海人工智能实验室这样的大型客户也在不断更新和推进大型模型研发,导致需求急速上升;中小厂商和科研机构对于复杂图像、视频纹理处理等领域的算力需求同样呈上升趋势。 而在供给方面,自去年10月17日精准制裁措施实施后,国产显卡新增供应几乎停滞,加上英伟达H100显卡可能存在交付受阻的问题,供给端压力巨大。 Q:展望未来,AI算力需求及模型迭代的趋势将如何演变? A:美国科技巨头正在大量囤积显卡资源,例如英伟达最近就购买了约35万张H100显卡。全球范围内,预期AI算力需求将以极为强劲的速度增长,单个模型所需算力有可能会是现在的1万倍以上。 按照预测,GPT-5的训练规模将至少较GPT-4提升一个数量级,带来更为严苛的算力要求。硅谷的部分创始人甚至认为算力需求的增长将是指数级叠加的指数级增长。 未来可能出现的爆发式增长主要集中在游戏行业客户以及专注于视频内容生成的创业公司,其算力需求可能会有20至100倍的增长。 与此同时,国产显卡如华为Ascend系列正逐步崭露头角,比如Ascend910AI处理器(即“910b”),其理论计算能力与NVIDIAA100相当,但在集群互联与软件生态方面尚待完善。 当前采用910b构建的集群规模能达到GPT-3.5级别,华为计划于今年年底前发布新一代Ascend920AI处理器(简称“920c”),该处理器有望匹敌NVIDIAH100的计算效能,官方宣称其性能指标为1200TFLOPS,并特别强化了卡间互联性能,旨在提供更优使用体验并支持大规模卡间互联部署。然而,除华为之外,国内其他厂商在算力供应上的进展大多处于初期发展阶段,尚未形成强大的规模化竞争实力。 Q:Ascend910AI处理器在市场上的客户接纳度与性能体验表现如何?华为新款产品的供应情况及售价有何特点? A:Ascend910系列处理器已成功应用于科大讯飞、美图和美团等众多行业头部企业,但当前的性能水平主要维持在3.5左右。这款产品因其出色效能而出现了供不应求的局面,市场需求旺盛,加上华为自身的产能限制,使得不少次级市场的厂商难以获取足够的供货以满足需求。目前,华为将大部分产品供给用于内部项目以及已建立合作关系的重要客户群体。华为预计其Ascend910AI处理器有望达到与NVIDIAH100相当的算力水平,并透露即将于年底发布的Ascend920处理器标称性能高达1200TFLOPS,旨在提供接近或相当于NVIDIAH100七八成的使用体验。Q:相较于同类产品,NVIDIAH20GPU的性能与价格竞争力怎样?租赁市场上NVIDIAA100的价格走势又如何? A:NVIDIAH20GPU作为一款削减了算力的版本,单卡性能大致为H100的1/12,多卡配置下大约能实现A100单卡性能的1/3至1/2。然而,从性价比角度来看,H20的预期售价可能位于H100的70%-80%区间内,这导致其性价比较低,约为Ascend910b的约1/5。近期了解到,商汤等AI企业在出租云算力时,租金相较于两三个月前上涨了约10%-15%,并且整个行业对于高端型号如A100以上级别的GPU租赁服务已基本暂停。Q:国内在AI算力方面有哪些值得关注的变化与动态? A:国内对AI算力的需求整体呈现指数增长态势。首先,在自动驾驶领域,自去年第四季度起,厂商开始构建大规模模型以支持端到端的自动驾驶解决方案,这一转变带来了比传统分阶段自动驾驶更高的算力要求。其次,视频内容生成领域异军突起,受国际上类似皮卡模型(此处未指明具体模型)影响,国内许多初创公司也开始投入该领域,他们所需的算力规模巨大,比如得到风险投资基金支持的小团队短期内就可能需要数百乃至上千张GPU卡。这些新兴应用的快速崛起将进一步推动整个AI算力市场的扩容。Q:关于国内多模态大模型的发展及其对算力需求的影响,您有何见解? A:多模态大模型的研发对算力的需求极为苛刻,国内正聚焦解决与GPT-4同等层次的问题。一旦国内能够成功突破至GPT-4级别并继续向更高级别的多模态模型如GPT-4V迈进,算力需求将会成倍增加,预估将是GPT-4所需算力的两倍左右。目前,国内首要任务是攻克GPT-4难题,之后再逐步发展至更复杂的多模态模型,届时算力需求的增长将呈现出爆炸式的特点。 Q:您认为国内哪些领域的AI应用会有显著爆发性增长? A:预测在国内,AI应用将有两个主要爆发点。首先是垂直领域的深度应用,例如教育行业的自动阅卷系统和虚拟教师助手,以及医疗领域的自动诊断系统。这些领域已经逐渐采纳AI技术,预计今年上半年将有更多的企业布局相关业务,特别是那些在2023年进行了大量投资但仍处于探索盈 利模式的企业。其次,随着AI模型能力趋近甚至达到GPT-4级别,AI应用将作为一种强大的生产力工具被广泛接受,下半年可能出现更大规模的应用爆发。 Q:国产算力卡hwj等的发展现状如何?它们是否具备实用价值? A:hwj的产品线目前在大规模训练场景中尚未有重大突破,其核心战略更多地倾向于定制化芯片和推理端应用,停留在2019年至2020年的技术水平。而h在去年第三季度发布了新产品PRfor,性能可达到市场领导品牌NVIDIA产品的一半左右。尽管如此,h尚未部署过超千卡规模的大型训练集群。总体来看,国产算力卡在训练端与市场领导者及其他如升腾系列存在较大差距,但在推理端则可能更具竞争优势。 Q:预计NVIDIA公司在2024年能够生产多少显卡? A:要准确预估2024年NVIDIA的显卡产量,需综合考量其财报透露的产能信息及新建工厂的进度。但行业普遍认为,相较于2023年,2024年的供应量不会出现大幅增长,市场可能仍面临供应紧张的问题。据推测,当年的显卡生产总量可能在400万片左右。Q:国内算力券的主要应用场景是什么?是否可以当作现金抵扣使用?A:算力券主要作为一种政策工具由政府推行,目前尚缺乏关于其详尽操作方式的信息。初步理解,该券旨在激活各地AI计算中心的资源利用效率,但具体实施效果和使用方式还需进一步明确。 Q:当前市场上裸金属服务器租赁的价格区间是怎样的?A:裸金属服务器租赁市场的价格跨度较大,例如,部分行业数据显示租赁费用从每年每批108,000元至10万元不等。对于高端如A100系列设备,租金可能会达到每年每批约20万元左右。价格差异主要取决于客户规模,大型企业通常能享受到更多折扣,即便如此,最低价也大致在每批16万元以上。 Q:国内是否有机构已经拿到NVIDIAH100样片并进行了实际测试? A:确实存在一些机构对H100样片进行了实测,但目前仅限于少数几家且样品仍处于工程阶段,因此与最终上市产品的能耗、体积、散热性能等方面会存在一定差异。尽管如此,实测结果显示其性能基本符合预期规格。H100在算力上大约为A100的十分之一,即相当于A卡的三分之一左右,但在多卡协同训练场景下可能展现出更高的效能优势。 Q:在国内推广NVIDIAL20推理卡的战略方案为何? A:鉴于L20卡在国内市场上相对较低的性能定位,其受到的关注度有限。在选购时,相比L20,消费者可能会更倾向于选择性价比更高的低端产品。因此,推广L20卡的策略可能需要围绕其实用性和特定场景下的性能优势来展开,寻找与其性能相匹配的市场需求