我们认为,数据和高速是AI投资逻辑的核心抓手,伴随AI场景应用的发展成熟,预训练数据服务是AI产业链走向分工明确的必然产物。 纵观AI产业链,上游数据是模型感知世界的起点,中游算法开发是数据应用的工具,下游场景应用拉动算法迭代,监管是贯穿上下游的刚需环节。 本轮ChatGPT浪潮的增长前期,模型使用过往成熟数据导致预训练数据服务需求并未快速增长,是因为预训练数据服务在AI发展过程中不需要?事实恰恰相反,预训练数据服务是AI大模型降本增效、提高算法精度、加速迭代的重要因素。 前期模型训练的核心目的是验证算法可行性,预训练数据多采用历史数据,如ChatGPT3.0的预训练数据为截止到2021年9月的历史数据。因此,前期预训练数据服务需求并未随大模型的算法迭代增长而快速提升,但这并不意味着预训练数据服务是不重要的环节。 伴随着场景应用的落地成为AI大模型新一轮的发展动能,大模型迭代的核心变成算法功能的拓展。AI预训练数据需要承接下游场景采集的全新数据,AI预训练数据需求有望伴随场景应用的落地而快速增长。根据德勤预测,2027年AI预训练数据服务的市场规模有望达到160亿元,2022-2027五年复合增速为28.9%。 智能驾驶有望持续成为弹性最大的下游应用场景,预训练数据需求前置,需求的提升伴随算法迭代和落地车型的量产时间或将呈现周期性收敛。 预训练数据需求受自动驾驶算法迭代、新车型量产落地、新车渗透率等多重因素拉动,智能驾驶有望领先释放预训练数据服务的需求。当前行业将继续受益于L2+向L3技术迭代带来的数据需求放量,2025年之后基础数据需求或将开始相对收敛。2027年迈入L3+向L4的升级迭代,需求有望开启新一轮逐步释放。 强者优势愈发显著,行业格局有望开启重塑步伐,科技巨头和专业数据服务商有望切分更多市场份额。 随着行业进入快速发展期,行业逐渐向多模态、合规化、半自动化演变,科技巨头和专业预训练数据服务商具备更强的研发优势,有望领先享受半自动化标注的红利,形成资源整合和研发技术的壁垒,切分更多市场增量份额。 投资建议:伴随AI场景应用的发展成熟,预训练数据服务是AI产业链走向分工明确的必然产物,目前行业格局重塑期,科技巨头和专业预训练数据服务商有望切分更多市场份额。建议关注:海天瑞声、汇洲智能、神州数码。 风险提示:基础数据服务商自动化标注研发进展不及预期;智能驾驶算法更新不及预期;新车型落地渗透率不及预期。 表1.重点公司投资评级: 1预训练数据是AI产业链的重要环节 1.1预训练数据是AI产业链的基石 我们认为,数据和高速是AI产业链投资逻辑的核心抓手,模型迭代速度和数据的传输速度是AI核心动能。预训练数据是AI模型感知世界的起点,为模型开发全生命周期提供数据价值,是AI产业链的基石。 ChatGPT大模型引领本轮生成式AI浪潮,纵观当前的AI产业链,上游数据来源于终端场景的采集,是算法感知世界的起点;中游模型开发是数据应用的工具; 下游场景端拉动模型算法迭代;监管是贯穿上下游全环节的刚需。 根据澳鹏数据的调研,AI模型开发项目80%的时间和精力被用于数据管理,高质量的预训练数据能大幅地减少数据管理环节的时间消耗,提升模型的训练效果,实现模型开发全生命周期的降本增效提质。 图1.基础数据的生产和训练是AI产业链的基石 1.2大模型跨模态迁移提升数据预训练的重要性 当前海内外大模型逐步向多模态迁移,叠加虚拟人等应用场景的落地,多模态预训练数据品质和数量均需要快速提升。数据预训练通过对非结构化多模态数据进行跨模态特征的提取、对齐和融合,解决产业结合下多模态数据难以有效识别和语义信息深度利用的痛点,实现模型优化的降本增效提质。综上,我们认为多模态预训练数据是解决AI应用长尾问题的关键,大模型与垂直领域的产业结合趋势带来的多模态技术迁移,将进一步提升预训练数据环节的重要性。 伴随应用端落地,训练数据更扩展到垂直领域的多模态数据,同时AIGC浪潮下虚拟人等多模态交互需求诞生,多模态数据质和量均呈现快速增长趋势。叠加当前模型迭代更加倾向于向特定领域或特定方向上的优化迭代,实现融合标签化处理的多模态数据能够更好地为模型训练增效提质。因此,大规模、高质量多模态数据集的重要性愈加凸显,成为模型训练效果的核心支撑之一。 (1)当前大模型的数据需求规模呈现指数级增长,大模型数据丰富程度显著增加,受到各类垂直领域以及虚拟人等应用发展的驱动,多模态预训练数据的数量需求快速增加。 大模型数据丰富程度显著增加,受到各类垂直领域以及虚拟人等应用发展的驱动,多模态数据为实现多种数据形态下交互,AI模型除了要具备理解人类文字指令的能力,还需要通过对齐不同独立模态关键特征,建立文字与图、语音、视频等一一映射关系,这背后将依赖大量融合对齐的多模态数据。未来,随着以AIGC、虚拟人为代表的AI技术以及应用的不断发展,多模态数据需求将呈现加速增长的趋势。 表2.虚拟人等多模态交互需求提升了预训练数据的复杂性和技术难度 (2)场景驱动下,模型优化的方向更加具体,多模态预训练数据的加工可以对模型的优化提质增效。 相比于传统的模型训练,大模型的数据需求类型也将有所转变,更多模型或将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,以使得机器能够以更加接近于人类期望的方式提供答案输出。 对于大模型训练而言,不仅需要持续获取大规模、多模态、多场景、多垂向、高质量的数据,更须具备持续迭代的数据清洗和标注策略,不断提升预训练、模型微调和奖励模型等过程中所需数据的质量。高质量的多模态预训练数据为大模型精确性、通用性和泛化能力奠定了坚实基础。根据2022年微软的论文《Unified Contrastive Learning in Image-Text-Label Space》显示,利用文本和图像数据进行跨模态特征提取、融合、标注形成的Image-Text-Label数据集进行模型预训练,模型的区分能力得到显著的提升。 图2.多模态模型实验的对照组数据集 图3.基于Image-Text-Label预训练数据集的模型具备更强的区分能力(右) AI模型的产业结合带来复杂的功能场景,预训练数据处理的复杂性和技术难度进一步提升。多模态预训练数据处理工程的技术难点集中在跨模态数据特征识别、提取、对齐、融合环节,其中多模信息的情感识别是人机交互环节的核心,单模态信息提取、融合阶段和融合方式的选择均是影响多模数据质量的重要因素。 图4.多模态预训练数据各环节技术难点 (1)多模信息情感识别是人机交互环节的核心。人机交互场景中,多模态情感识别关注如何从人的表情和动作手势、语音音调、语言等多模态信息中理解用户细颗粒度的情感表达倾向,进一步反馈指导人机的交互策略。当前主流方式是利用情感标签来表达多模数据集细颗粒度的情感特征。 表3.当前多模态情感识别常用多模态情感数据集 (2)多模态数据融合的核心是单模信息的提取、融合阶段和融合方式选择,其中单模态信息提取是多模态融合的基石,融合时间决定数据融合的准确率,融合方式影响数据处理的效率和成本。 提取单模数据特征的核心是如何从视觉内容中解析出更高层语义信息,以增强视觉特征表达。如从视觉内容中识别目标、属性、动作、关系、场景图、语义结构、空间位置等信息,进而对视觉内容的全局性、区域性、目标、关系等细颗粒度的视觉语义进行建模。 图5.视觉-语言-音频等多模信息的视觉特征增强过程 融合时间和融合方式的选择直接影响多模态数据集的质量。早期融合的深度大,有效增强多模信息特征之间的交互,提高数据融合准确度。多种融合方式中,Transformer融合的模型更加复杂,性能更加优越。 表4.多模态融合方法的性能对比 2预训练数据是AI降本增效、场景落地的关键 2.1过去:追求算法验证,历史数据驱动模型预训练 ChatGPT拉开生成式AI大模型的序幕,2022年增长初期,AI大模型训练核心是验证算法可行性,预训练数据多采用历史数据,ChatGPT3.0使用截至2021年9月的历史数据进行模型预训练。因此,前期预训练数据需求并未伴随大模型“百模大战”而快速增长。由此带来错觉:预训练数据服务在AI发展过程中不需要吗? 事实恰恰相反,预训练数据服务是AI模型降本增效、加速迭代的重要因素。 以来源、处理、应用维度纵观AI数据链,AI预训练数据服务商是承上启下的关键抓手。伴随AI场景应用的发展成熟,预训练数据服务是AI产业链走向分工明确的必然产物。AI预训练数据服务是通过对预训练数据进行采集、清洗、标注、质检,进而精准满足AI企业痛点,为模型开发降本增效,提高算法开发精确度,是AI降本增效的关键一环。 预训练数据服务承接上游数据来源:非结构数据只有经过预训练处理才能激活其价值。AI预训练数据服务将场景端语音、图像、文本、视频、点云等非结构化数据进行采集、清洗、标注、质检,形成AI模型可直接利用的有效预训练数据集。 其中标注环节最为重要,标注环节决定数据有效特征的提取精度,影响模型的开发效率。 预训练数据助力下游算法开发:高质量标注数据贯穿算法开发全生命周期,有效提升模型开发效果,助力开发环节降本增效。 (1)算法设计环节,减少模型设计的方向性偏差。利用小批量预训练数据对算法初步的设计进行验证,确定模型设计方向的准确。 (2)算法训练环节,节约模型开发时间,有效简化模型参数规模,提升模型效率。 高质量标注数据可以减少预训练环节的模型学习时间,在更少的算力资源支撑下达到优化目标,助力算法开发实现降本增效。根据OpenAI论文中对大模型优化方案的指引,单独增加预训练数据量、模型参数规模、预训练计算量,对照实验结果显示扩大预训练数据集具备更高的性价比。因此,预训练数据可有效降低模型参数规模,简化模型结构,提升算法开发效率。 (3)算法测评环节,保证模型准确性。少量人工标注的预训练数据可作为模型输出结果的对照组,有效评定模型的准确性。 (4)算法迭代环节,有效提升模型的性能。在算法迭代环节,针对bug对预训练数据进行精确标注处理,进而对模型精准修复,有效提升模型性能。 图6.数据预训练服务商是AI数据产业链中承上启下的关键一环 2.2当前:算法功能性至上,场景落地驱动预训练数据需求上升 我们认为,AI预训练数据承接下游采集的全新场景数据,为下游客户场景落地的的算法迭代提供高效燃料,进一步满足场景功能性的拓展。AI预训练数据服务有望伴随场景应用的落地而快速成长。根据德勤预测,2027年AI预训练数据服务市场规模有望达到160亿元,2022-2027五年复合增速为28.9%。 和传统的深度学习模型相比,大模型的数据数量需求指数级增加。传统深度学习技术路线下,训练小模型大约需要GB级数据,但训练大模型通常需要TB级数据,如GPT-3原始文本语料多达45TB。 叠加当前大模型优化的边际效用下降,优化迭代的成本指数性增加,算法竞争的准入门槛逐步提高,科技巨头逐渐形成各自的算法护城河。依靠大模型性能和自身强劲的资本优势,巨头有望领先发力垂直领域的模型整合,叠加政策频频加码(表4)助力场景落地,应用场景拓展有望成为AI大模型算法迭代创新的新动能。 图7.政策加码助力AI场景端的应用落地,进一步提升预训练数据的需求 当前自动驾驶、智慧工业、互联网内容等终端场景占比基础数据服务行业的较大份额,自动驾驶环节需采集大量真实、覆盖不同天气、不同路况的小概率事件的视频图像和激光点云图像,标注出来行驶区域、车辆、行人等各类元素,有望成为占比最大的下游应用场景。 目前基础数据服务行业仍处于需求释放的早期,伴随着未来技术拓展、功能增加、场景拓展,行业需求有望实现几何级增长。根据德勤预测,2027年智能驾驶带来的AI预训练数据服务市场规模有望达到60.8亿元,2022-2027年的五年复合增速领先所有下游应用场景高达37%。 表5.智能驾驶为未来预训练数据需求最大的应用场景 3多模态、合规化