中国AI基础软件 市场研究报告(2023) 目录 执行摘要 简介 过去十年,是人工智能从实验室走向产业化的十年。AI技术革命掀起的产业浪潮,势不可挡地席卷了全球的各行各业。作为现今最为活跃的创新领域,人工智能在迅速融入细分场景的同时也在不断地重塑传统行业模式,为经济社会输出独一无二的未来价值。 大模型是人工智能迈向通用智能的里程碑技术。业内人士认为,在基于数据的互联网时代和基于算力的云计算时代之后,将进入基于大模型的AI时代。大规模数据集和模型训练算力等领域取得的突破性进展,离不开AI基础软件的底层支撑。尽管大模型当前表现优异,但对于各行业使用者来说,实际应用于业务场景仍然存在较高的技术和成本门槛。当前大模型的参数标准并不统一,相对于参数级,模型的效果且是否能够支持快速迭代对于用户实际应用来说更为重要。用户能够在一个白盒大模型基础上快速地、低成本地微调和迭代出客制化AI基础软件产业协同发展图 的小模型,才能高效地实现丰富场景的大模型应用。这就再次点明了AI基础软件工具链的重要性。 随着AI基础软件不断发展,近年来大模型落地应用呈现加速态势。在开发层面,AI基础软件可帮助提供大模型能力萃取;在训练层面,其提供了硬件层之上的高效大模型分布式训练框架;在运维层面,其作为企业的基础设施,可增强企业管理、上线模型的能力。 本报告旨在明晰AI基础软件框架的基本概念和分类,通过对行业发展历程及产业链的梳理探究行业核心驱动因素,剖析当下AI基础软件行业市场趋势,并基于应用、产品及生态三大关键维度构建厂商竞争力体系,评估主流玩家的核心竞争优势及综合壁垒,形成对中国市场AI基础软件框架发展情况的客观评价,并为行业未来发展提供参照建议与关键启发。 反哺 大模型 模型开发 落地 企业行业或业务数据特殊 调整 元学习生成 内部 CT- hatGP 支撑 like模型 模型 + 基础软件 + 落地 模型 训练 企业缺失需要硬件层之上 自研大模的高效大模 型训练框型分布式训 架的能力练框架 开发者生态 生态 协同加速产业智能化基础软件 AI 模型落地企业面临升级企业基础设 运维繁复的多施管理/上 模型管理线模型能力 关键发现点 在人工智能技术迭代的过程中,AI基础软件行业整体格局将逐步成型。科技巨头生态体系建设叠加中国肥沃的政策和技术土壤,将为业内厂商提供前所未有的发展机遇。本报告将从行业宏观环境洞察市场需求,从技术规律把握未来趋势,进而识别出在AI浪潮之下领先的AI基础软件厂商,并对其综合竞争实力进行分析: •驱动因素:随着上游硬件、算力升级以及数据量增加,AI基础软件行业下一阶段的驱动因素主要包含三个层面。其一,在全球AI政策环境持续优化的趋势下,中国对大模型技术的宏观战略规划将为行业提供肥沃的成长土壤。北京市政府已明确出台政策,加快建设算力中心,支撑多模态大模型、科学计算大模型等研发。其二,下游大模型加速渗透应用场景和规模化应用将为行业带来曙光。从2023年AI预训练大模型的应用来看,大模型已开始在工业质检、智慧交通、时尚设计等多个行业中落地,其距离实现预训练大模型规模化商业化应用仍有一定的距离。其三,头部科技企业加速布局和产业生态体系垂直整合,将为不同厂商提供多元化的战略切入点。目前,业内已形成算力、基础软件、平台和服务纵向一体化的共识,从而为云服务企业、AI头部企业及AI芯片巨头提供了多环节的战略布局思路。相关头部AI企业,有望引领本轮生态体系建 设。 •市场趋势:在核心驱动因素的催化下,中国AI基础软件行业展现出三大主要趋势,并在这个过程中逐步明晰竞争格局。其一,中国原创技术创新突破加之人工智能政策导向,将推动市场 产学研用融合创新共同体的成型。中国具备全球领先的视觉、自然语言处理、语音识别等智能任务的工程实现水平,人工智能原创技术创新正处于活跃期。大模型的技术突破结合2023年各省发布的支持政策,将引导行业形成连通企业、高校、研究院所、政 府等创新主体的共同体生态。其二,大模型应用逐步落地,将带来行业发展新需求。作为模型生态系统的中坚力量,AI基础软件将会成为大模型应用落地的最主要的效率支撑,并通过 大模型+小模型的方式,形成模型训练新范式。基础软件的重要性具体表现有三点:一是基础软件工程化的易用性、完备性;二是AI基础软件要与场景结合,能够进行完备的运维过程;三是需要具备安全可信保障条件。 •竞争格局:在竞争格局渐趋明晰的过程中,相关厂商需要跨越技术、人才、资金和品牌四方壁垒,在技术实力、生态规模和功能体验三大成功要素上展开角逐。 章节一中国AI基础软件发展背景 AI2.0时代到来开启巨大的平台型机会 •AI2.0是由大数据、云计算和人工智能技术等多种技术的融合所构成的,是一个巨大的平台式机会,将会在未来为各行业提供更加深入和全面的解决方案。随着AI2.0时代的到来,基础模型不再需要人工标注数据,也可以自行学习和阅读海量的文本。而且模型通过微调就能以低成本训练适应不同领域的任务。 •其中,AI2.0相关的应用、平台和基础设施,将会成为包括产业及投资在内的热点。AI基础软件作为AI 大模型训练、管理、应用的重要平台将会在AI2.0的长风中顺势演化出巨大的产业机会。 关键发现 行业小模型 任务集 文字、语言、通用 图像等多模大模型 态数据 行业小模型 任务集 AI2.0时代:通用大模型崛起的AI平台时代 AI2.0 文心一言 GPT-4 GPT-2 GPT-3.5 GPT 跨领域知识的“基础模型”+“行业模型”、海量数据进行基础训练单一领域数据集,割裂的模型缺乏纵效,劳动密集型数据标注 AI1.0时代:割裂小模型、人工数据标注的时代 数据集模型任务 数据集模型任务 AI1.0 “自1980年首次看到图形用户界面(graphicaluserinterface)以来,OpenAI的GPT人工智能模型是我所见过的最具革命性的技术进步。” ——比尔盖茨 李开复博士看好三类未来的创业机会: “AI1.0就像是发明电,AI2.0 就是电网。AI2.0时代的来临 ,首先它是巨大的平台式机会,这个机会将比移动互联网大十倍,而且它是中国的 第一次机会。” ——创新工场李开复 AI基础设施 (基础软件、算法、框架等,压缩计算量,更好地进行模型运维、管理、训练。) AI2.0智能应用 (各行各业的垂类应用,提高社会生产力) AI2.0平台 (基础大模型+平台能力,中间层工具) 庞大的数据基础为国内AI大模型发展提供根基 数据量的爆发为人工智能的发展注入燃料 全球数据量分布图-按地区划分2021-2026E (单位:ZB) 216 中国 北美 其他地区 178 44 56 82 19 22 42 96 28 3235 2023 146 36 39 59 49 71 23 27 22 2022 71 85 101 2021 2024E 2025E 2026E 中国数据规模将从2021年的18.5ZB增长至2026年的 56.2ZB,CAGR为25%。 数据量的爆发推动了基础数据服务行业的发展和拓展基础数据的服务范围。中国的数据量在2017年到2021年,从2.3ZB(十万亿亿字节)增长到23.88ZB,预计在2026年达到76.6ZB,将位居全球第一,且未来依然保持爆发式增长。随着大数据的爆炸式增长,企业和组织对于处理、管理和分析这些数据的需求也在急剧增加。这为基础数据服务行业带来了巨大的市场需求,推动了行业的发展。其次,数据爆炸也推动了数据服务商提供更多元化、更专业化的服务。例如,针对不同类型的数据(如结构化数据、非结构化数据等),数据服务商可能需要提供不同的数据处理和分析服务。 合成数据加速高质量数据供给,为AI大模型发展提供基础合成数据是通过计算机技术人工生成的数据,而非真实事件产 生,其将成为大模型数据的主要来源,与收集大型数据集相比,生成合成数据的成本低廉,并且可以支持AI/深度学习模型或软件测试,2020年,AI生成的合成数据已经超过了真实数据,预计到2030年将进一步扩大。预计到2024年,60%用于开发AI和分析项目的数据将都是合成生成的,合成数据有望解除AI的数据掣肘,推动人工智能迈向2.0阶段。在此阶段,合成数据不仅可以训练AI模型,通过数据仿真AI可以完成自我学习和进化。 到2030年,合成数据将成为AI 模型训练使用数据的主要来源 合成数据 真实数据 DatausedforAI 中国AI预训练大模型,2023年 20202030 收集大量数据,并训练超大规模神经网络对模型微调以达到特定的场景应用/行业应用 图片 多模态大模型 音乐CV大模型 视频 NLP大模型 文本 科学计算大模型 场景1 场景2 模型1 模型2 场景n 模型n 预训练 微调&部署 迭代 来源:弗若斯特沙利文 章节二中国AI基础软件市场概览 AI基础软件市场定义与解读 •AI基础软件包含一系列企业级AI应用所需的平台软件产品及解决方案,是为大模型应用落地的最主要的效率支撑,AI基础软件的发展决定了人工智能发展的深度、高度、广度,其催化大模型应用快速发展,推动政府和企业AI规模化应用。 关键发现 AI基础软件定义与解读 •AI2.0时代的到来,让各行业对大模型应用的需求日渐提升,对大模型对于业务的支撑力也更为重视,但大多数企业存在工程、技术等能力不足的问题。AI基础软件作为AI基础设施的重中之重,为企业客户提供全方位的AI调度以及模型服务,包含机器学习平台等一站式模型平台,以及数据智能平台、实时决策中心、数据湖、数据仓库等服务于AI的数据平台,从而降低各行业客户训练自己人工智能模型的门槛,实现降本增效。 AI基础软件 基础框架及算法 传输 施 设 础 基 AI 台 平 2.0 NLP大模型 科学计算大模型 基础大模型 CV大模型 多模态大模型 AI 交通 电力 能源 制造 政府 通信 金融 行业小模型 AI2.0 智能应用 算法(开源学习、因果学习) 数据智能平台数据湖、数据仓库 数据 算力 开源框架 机器学习平台实时决策中心 来源:弗若斯特沙利文 蓬勃的AI大模型市场为AI基础软件发展注入动力 2006年之前 2006年~2011年 2012年~2017年 2017年至今 以监督学习为主。这一阶 神经网络向深层次发展应 Transformer模型的发展使得AI进入大模型时代,无监督和半监督学习方法兴起 段表现较优的神经网络算 用场景更多,由于数量不 CNN的发展促进监督学 法为支持向量机(SVM), 够,因此非监督学习成为 习再次成为主流 SVM采用监督学习 这一时期的主流学习方法 这一阶段应用场景较为简 神经网络向深层次发展,其适用的应用场景更多,因此需要更多的数据进行学习 这一阶段数据量被认为是提升AI智能水平的关键,开源标注数据量快速兴起 深度学习的出现使得数据量呈现爆发性增长,模型的性能与数据量高度相关 单,人工智能模型仅需要 少量的数据就可以实现 中国AI模型的演进历程,2023年 训练办法 GPT模型 BERT模型 生成对抗网络 ViT模型 随机森林 支持向量机 自监督学习 Transformer 模型 卷积神经 网络 图神经迁移学习网络 朴素贝叶斯 决策树 逻辑回归 自编码器 隐马尔可 夫模型 数据需求 AI 模型的演进 •在数据层面,模型训练数据的质量和规模对模型迭代的效果至关重要,尤其是目前内外数据共享和数据共创、数据类别不均衡、极端场景数据缺失等问题,呼唤业内对AIGC结构化数据合成领域的技术探索 •在技术层面,生成式AI模型的推理能力愈发重要,同时对AI的可信度、可解释度的需求也在提升,呼唤自动机器学习、深度学习、因果学习等领域的基础软件性能提升 •在商业模式层面,随着大模型的逐渐成熟,通用大模型+行业小模型会成为越来越多企业采用的落地模式, 因此,帮助企业自建AI模型的AI基础软件成为大势所趋 来源:弗若斯特沙利