Sora对AI算力市场影响专家交流纪要2024-03-02要点1.Sora对AI算力 市场的深远影响AI算力需求:随着海外人工智能产业的迅速发展,春节后国内对AI算力的关注度显著上升。企业开始围绕AI模型推广平台及高性能计算基础进行布局。 柏云公司战略:作为云计算公司,柏云转型致力于AI,提供高效资源调度和GPU利用方案,并探索AI基础设施领域。 市场对算力需求:去年大模型发布前算力供应过剩,模型发布后算力市场需求快速增长,产生紧张状态;国产算力卡性能正在赶超,客户开始延迟采购高价显卡,转向国产替代产品。2.Sora演进与行业影响视频算力需求与文本相比:视频处理所需参数量小于文本,但数据处理 尺度大,目前单段视频生成最长60秒,与算力处理能力相关AI在多领域提升效率:华为’盘古’大模型在气象领域提升算法效率约7倍,同类大模型被广泛应用,替代小型、专业模型,推动行业进步大模型在科研等领域存在解释性差和成本高问题,提升精度需增算力或数据,但速度优化显著3.华为升腾与曙光展望Ascend910B的性能评价:多数客户对华为Ascend910B的测试结果表示满意,性能接近或达到NVIDIAA100的80%-90%。但双精度不支 持,在某些应用场景要额外的转换步骤。 华为AI生态面临的挑战:产能紧张导致供货周期长。API的兼容性较弱,转移旧代码至华为生态成本高、周期长,生态封闭性相对其他竞争者更高。 其他AI芯片厂商状况:曙光产品兼容性较好,性价比优,并拥有一定产能。其他厂商如天主之心 、寒武纪等产能较低,应用模型匹配度和兼容性相对差。 4.探讨Sora对AI算力生态影响AI算力领域消费者面临选择时,倾向于选择兼容性较好的中立厂商,以避免被绑定在特定品牌上。 推理环节在AI应用中关注度不高,但其稳定性对服务质量至关重要,这是业界的关注焦点之一。华为鲲鹏生态系统发展迅速,在国内市场取得显 著成就,其软件生态对自家产品的支持优于竞品。 5.国内算力基建与运营格局探讨国内计算中心建设主要由政府主导,投资规模大,多为重资产类型。后续运营通常采取租用模式,之前销售和资源开通存在痛点;现在有自动化系统,但仍存粗放运营。 企业建设的计算中心规模相对较小,运营管理更精细,涉及算力调度和计费系统建设;市场形势变化时也会考虑构建运营系统。 国内算力芯片标准不统一,实际遵循行业潜规则以英伟达的API标准为主,因其算子库质量高且被广泛接受。 6.挑战与潜能并存关于寒武纪590和海光深算三号,专家们尚未接触过寒武纪590,对其难以做出评价。 海光曙光公司最近推出的K系列,自称性能可与NVIDIA的A100持平,但尚缺乏客户评测报告 。海光曙光的产品支持双精度计算,这对模型开发厂家而言可能降低难度,提高运行效果。Q&AQ:在处理视频和文本方面,算力需求有哪些差异?当前市场对算力的需求趋势如何? A:处理视频相比文本,尽管参数量小,但视频数据的持续性和处理时长使得算力需求更大。一个显著的例子是目前产生的视频通常限制在60秒内。市场对算力的需求是在不断增长的,这一需求不仅 影响了硬件厂家,也影响了从AI基础软件、模型制造商到应用开发商甚至业务层的各类工作者,整个生态系统都在快速演进中。 Q:随着AI技术的发展,超算领域有哪些变化?大型AI模型对行业的影响及其效率问题如何? A:原本超算主要用于科学计算、数值计算、气象数据处理等,但随着AI技术的发展,使用大型AI 模型如华为的盘古大模型已经对这些领域产生影响,其效率的提升非常显著,比如气象预测从原先五天缩短至一天。然而,大型AI模型有解释性欠佳的问题,其得出的近似解的精确性提升需要更高的算力或者数据量,相应的成本也较高。 Q:华为生成的芯片与英伟达芯片相比,在客户接受度、性能、成本等方面处于怎样的水平?A:对于华为生产的芯片与英伟达芯片的比较,客户的接受度等情况没有提供确切的数据。讨论中并未给出具体的性能指标或成本比较。 Q:Sora对AI基础设施(算力)带来了哪些影响?A:从我们了解的客户自己测试情况来看,普遍对华为升腾的910B型号测试结果比较满意。910B相比之前的国产卡有明显的性能提升,可能达到80-90%,和英伟达V100相比,甚 至能持平。尽管910B在某些大模型的计算场景下不支持双精度计算,需要进行转换才能在单精度下运行,这会增加一些复杂性。 Q:华为和其他国产算力供应商在生态、产能以及兼容性方面的现状如何?A:华为的算力产品因与其手机芯片共用7纳米技术,其产能相当紧张,通常交付周期超过三个月 。其生态兼容性相对薄弱,软件开发成本和周期较大。华为的盘古与星火模型与自家芯片兼容性好,但应用于其他大模型效果较差,可能会引起客户的顾虑。曙光相对华为而言,其生态开放性好,已有一定产能输出。海光、天主之心、寒武纪和木樨等其他品牌当前在产能和API兼容性上相比曙光有所 不足。特别是寒武纪主要适用于推理阶段,而在训练阶段与算子库的差距较大。Q:现在市场对国产芯片的采购规模如何? A:目前,除了华为的910B外,像曙光的产品在推理方向的应用相当广泛,但大模型方面仍然相对弱。至于其他供应商,多数用于推理阶段。国产化芯片的需求正在上升,尤其在讯飞和电信等领 域已经看到批量采购的案例。Q:异构算力环境下的挑战如何解决? A:在异构算力中心的部署已经比较常见,主要被政府主导的智能算力中心采用。虽然目前模型训练环节存在挑战,特别是算力切分和任务编排的复杂性,多数研究和开发单位都会将训练任务分配到同一种GPU上。在推理阶段,通过编译器优化和二进制文件输出可以解决兼容性问题。Q:AI基础设施层面有哪些机遇和挑战?A:AI基础设施主要分为:数据处理、模型算法开发、训练和推理。其中训练部分备受关注,因为它直接决定了模型效果的质量。行业正在向专业化的服务转型,其中模型定制和私有化训练需求逐渐增加。轻量化的训练平台以及与GPU资源池化管理的结合为客户提供了更适合私有化部署的解决方 案。 Q:客户选择算力产品时面临的考虑因素有哪些?选择大厂如阿里、百度、华为的算力产品会有哪些顾虑? A:客户在选择算力产品时,一个主要的考虑因素是模型的兼容性。如果客户选择了大厂如阿里、百度、华为等的算力产品,他们通常会担心绑定在一个厂家上而导致不能兼容其他厂家的模型。例如,若选择了阿里的模型,那么运行百度或华为的模型可能会遇到困难,因此他们可能会倾向选择 一些中立厂家的产品,以期获得更好的兼容性。Q:对于推理环节中算力的使用有何看法?哪些问题需要关注? A:在推理环节,算力的使用变得相当灵活且多样。为了兼容尽可能多的不同类型的硬件,像我们这种提供服务的公司会做大量不同类型的卡片(比如KD卡)的兼容工作。推理服务的稳定性是我们非 常关注的问题,我们需要通过引入缓存、中间件、向量数据库等工程化的手段来提升服务效率和性能,并提高抗高并发和大访问量冲击的能力。实际上,即使是OpenAI这样的公司,其对外服务 的稳定性也存在一定的问题,他们的服务中约有15%左右出现异常,这说明服务稳定性的提升是推理环节中需要重点关注的问题。 Q:关于华为鲲鹏生态的现状及其生态建设速度的判断,以及与升腾生态的比较?A:华为的鲲鹏生态已经发展到一个相对成熟的阶段。初始时期信任度不高,但目前在国内出货量已经非常大,已经成为主流之一。鲲鹏生态主要是围绕华为自推的操作系统欧拉来建设,目前的生态非常开放,而且未来可能欧拉会替代国内其他Linux内核操作系统。华为竭力推广自家软件生态,比 如高斯数据库和HCS云服务在鲲鹏产品上的性能提升显著,相比英特尔产品能有10%到20%的 性能提升。至于升腾生态,目前尚不如鲲鹏开放,模型方面官方主要支持的是华为的“星火”和“盘古大模型”。 尽管目前对其他模型的支持有限,但这可能是由于华为并未强推,以及其他厂商适配工作量大、投入较多资源不现实的双重因素导致的。二者的发展速度很难准确比较,但可以观察到华为在推广自家生态上的决心和所采取的措施。Q:当前国内在建设计算中心方面的主体是谁?相关的建设规模如何?是否有专门的负责单位在进行算力芯片网络组网?A:目前在我国建设计算中心主要以政府主导较多,包括市级和省级政府的投资。这些计算中心的规模通常都比较大,算力往往在500P及以上,且配备上千张算力卡。在运营模式方面,基本是对外租 用。在另一方面,一些国企、央企及金融型企业也会增加自己数据中心的计算能力,通常规模较小,可能针对内部做精调或小规模尝试使用。至于算力芯片组网方面,当前还没有明确专门负责的单位,计算中心之间的互联互通通常需要结合地方政府的实际情况来完成,可能会聘请有运营经验的公司来进行运营和调度系统建设。 而在芯片层面的API兼容性方面,则通常遵循业内的潜规则以英伟达的API为标准。Q:国内的算力中心建设后的运营模式是怎样的?有没有全国统一的算力调度网络?A:算力中心在建设后的运营模式主要是对外出租,但是在市场是卖方市场的背景下,很多买方会主动 积极寻求租用。至于全国统一的算力调度网络,国家已有相关的机构在进行这方面的工作,主要包括信通院和国家信息中心,不过这部分工作目前主要停留在标准制定阶段。整个网络的运营主体尚未明确,因为地方政府也希望能通过这样的网络吸引企业和提升产业水平,并利用这些资源作为收入来源。所以目前仍然是由各自的建设单位运营自己的算力资源。Q:对寒武纪590和海光深算三号的看法?它们能PK过910D吗?A:寒武纪590这个型号我还没有接触过,根据之前的经验,可能难度会比较大。至于海光深算三 号,我认为应该是近期推出的K系列。据海光自称,K系列性能可以和NVIDIA的A100持平 。不过,我们还没有看到客户的评测报告,所以无法做出确切判断。相比之前的L系列,K系列应该有显著的性能提升,L系列是与NVIDIA的A40对标的。海光的产品支持双精度运算,这对于 某些模型开发者来说会降低难度,理论上模型运行的效果会更好。而910D不支持双精度运算,所以在这一点上海光有差异化优势。