数据预训练是AI应用降本增效的重要因素,随着场景落地,数据将成为大模型竞争力提升的高效燃料,预训练数据服务商有望伴随着AI场景落地而快速成长。 前期AI模型搭建以过往数据为主,预训练数据服务需求并未伴随模型发展而快速增长,由此带来错觉:预训练数据服务在AI中不需要。事实恰恰相反,预训练数据服务是AI模型降本增效,加速迭代重要因素。 预训练数据服务需求将伴随AI场景落地而迅速增长。预训练数据服务有助于优化算力配置;有助于更精准实现客户需求;有助于AI模型快速迭代。 因此,随着AI场景落地,使用更多全新数据,预训练数据服务需求由此快速增长。 数据反向赋能应用场景,数据和场景落地有望共振。终端场景应用落地加速数据要素多模态扩容,将进一步提升预训练数据环节的重要性,高质量预训练数据集是大模型自反馈强化学习机制的前提,数据与场景将实现共振。 承齐重之积淀,机床成为公司发展压舱石。 “齐一”品牌优势显著,多年积累成就“4+3+N”创新体系巩固研发优势。近年公司双向发力,纵向承接风电行业需求释放研发系列新品。横向针对航空航天、船舶、能源等行业进行高端品升级。 公司切入数据预训练业务,发力智能标注和自动驾驶,重塑发展动能。 平台化统筹、智能化、技术先进性是自动驾驶场景数据预训练的准入壁垒,公司当前已具备舱内语音、舱外图像、视频等多类型数据的标注能力,Enable AI智能平台支持3D点云数据的连续帧标注、点云融合。 自动驾驶数据需求随算法迭代和落地车型量产的时间呈现周期性收敛,根据德勤测算,2027E年自动驾驶带来的AI预训练数据服务需求有望达到83亿元,2022E-2027E五年复合增速为37%。 投资建议:我们预计公司2023-2025年实现营业收入8.86/11.06/13.72亿元,归母净利润1.82/2.66/3.54亿元。对应PE分别为41.69/28.53/21.45倍,维持“增持”评级。 风险提示:大模型产业结合不及预期;智能数据标注市场竞争加速;智能标注平台落地不及预期。 盈利预测: 1机床龙头,发力数据预训练再塑成长动能 汇洲智能是我国传统机床龙头。公司机床业务起家,旗下控股子公司齐重系机床等高端装备制造业务的经营主体,历经73年发展,成为我国传统机床龙头企业。 为迎接AI浪潮,发力AI大模型数据预训练业务,重塑新的成长动能。公司为迎接AI发展浪潮,通过收购积极布局AI大模型数据预训练业务。2019年收购长华文化,取得热热文化控制权,作为AI数据与训练业务的经营主体,同时将控股子公司中科汇洲数商作为AI数据预训练业务的技术研发主体。 图1.汇洲智能股权结构(数据截止到2023H1) 1.1夯实重工基础,机床为发展压舱石 公司机床业务产品矩阵完善。公司始建于1950年,是国家一五时期重点建设项目之一,高端制造底蕴丰厚。历经73年积累,已成为我国重要的数控机床生产基地。截至目前已形成38万平方米的机床生产基地,包含10大类,26系列,600多品种的机床产品矩阵。 公司多项技术弥补海内外空白。截至目前,公司400多项具备自主产权的产品填补国内空白;立式车床加工直径最小可达0.5米,最大可到填补国际空白的25米;卧式车床加工直径最小可达1米,最高到填补国际空白的6.3米。广泛用于船舶、汽车、风电等下游行业。 “齐一”品牌优势显著。“齐一”数控机床是中国知名机床品牌,部分高端机床产品已成功出口欧美、日韩等30多个国家和地区,截至2023H1重型车床市场占有率40%到50%,重型深孔钻镗床市场占有率100%。 表1.公司机床产品矩阵完善 持续扩大研发支出,搭建“4+3+N”的创新体系巩固研发优势。历经73年发展,公司机床产品研发经验丰富。近年来,公司发力构建“4+3+N”的创新体系:搭建4个科技创新平台,培育3个科技创新团队,引进N家科研院所及企业,高平台化研发能力,巩固研发优势。截至2023H1,公司是我国重型卧式车床、重型深孔钻镗床、重型立式车床的国家检验标准制定单位,主持和参与制修定标准累计77项,专利授权302项。 图2.公司搭建“4+3+N”创新体系巩固研发壁垒 公司技术团队经验丰富,持续扩大研发支出。截至2022年底,公司研发人员数量187人,同比2021年提升15%,其中40岁以上占比57%,多数研发人员拥有多年研发经验。公司持续扩大研发支出,2022年研发支出64.84百万元,同比增长56.05%,研发支出占比营收9.23%,同比提升4.27pct。 图3.公司研发支出持续增长 图4.研发人员规模不断扩张(单位:人) 图5.技术研发团队从业时间较长(截止2022年底) 2020年起,公司紧跟下游需求变动双向发力,实现机床产品的全面升级。 公司纵向紧跟需求变动,向下游热门行业拓展。为承接下游风电行业的需求释放,公司快速针对风电主轴、法兰、回转支承研发了数控专用卧车、定梁立车、硬车和滚齿机等一系列产品,2022年风电行业产品新增合同额占比高达60%以上。 公司横向紧跟行业技术趋势,向高端品升级。2022年公司发力研发适用于下游航空航天、船舶、能源行业的高精度机床,完成全新高端产品设计26台,技术准备147项,电气设计190项,工艺设计221项。 截至2022年底,公司仍存在8项高端产品在研项目。其中超声微锻造辅助激光增材制造项目,有望弥补国内技术空白;基于5G通讯的智能机床在研项目,有望助力公司产品的智能化转型升级;数控重型卧式镗床针对风电主轴内孔,国内领先,下游应用前景广泛。 1.2发力AI数据预训练,重塑成长动能 公司受益于大模型赛道的长坡厚雪,依靠三大核心壁垒:丰富的技术和产品矩阵、高粘性的优质客户、经验丰富的核心技术团队,快速成为AI数据服务商新秀。 公司布局数据预训练业务,重塑新的发展动能。公司于2019年收购徐州长华100%股权,取得了对热热文化的控制权,构建AI数据预训练业务经营主体,同步设立控股子公司人民中科数商为AI数据预训练研发主体,提前研发布局,承接下游数据标注需求的释放。 图6.AI数据服务子公司的股权结构(数据截止到2023H1) 公司数据业务矩阵分为互联网内容审核和AI数据标注两大板块,数据标注产品和技术已进入行业前列水平。公司已形成行业领先的数据标注技术矩阵和数据集产品矩阵,截至当前,已实现针对文本、图片、语音、视频等数据类型的标注,其中计算机视觉相关的视频追踪、打点、连续帧技术;2D图像语义分割;3D点云融合、连续帧等数据标注技术,适用于下游自动驾驶、人形机器人等热门终端场景;沉淀的可复卖的标品数据集涵盖文本、图片、音频、视频;并可针对自动驾驶、城市规划、医学影像诊断等场景制定解决方案。 表2.公司技术产品矩阵行业前列水平 内容审核业务在人员规模、内容覆盖和准确率多维度领先同业。热热文化2016年成立,发展至今已在北京、成都、绥化、枣庄、金华设立五个规模型审核、标注基地,审核团队规模超5千人,累计培养审核人才超5万人,累计审核数据20亿条;在网络内容的安全审核业务事故率和遗漏率均较低。 图7.公司内容审核业务矩阵完善 公司核心团队自带AI数据预训练产业经验,背景丰富奠定研发优势。数据预训练研发主体中科汇洲数商人民网+中科院北京紫东科技中心等多方牵头创办研发平台,自带AI数据技术背景和产业经验。业务主体热热文化总经理李刚是前阿里云互联网事业部技术负责人,公司监事、技术团队负责人李兵是中科院自动化所博导,人民中科首席科学家,曾成功开发跨模态预训练智能搜索引擎“白泽”模型。 公司已形成多层次、高粘性的客户矩阵。公司内容审核业务起家,与人民网渊源深厚,起点高叠加深耕基础数据服务数年,公司依靠高质量服务已成功建立多层次高粘性的客户矩阵,遍布下游互联网、人工智能科技企业、航天、重工、金融、政务、高校等行业。 图8.公司已形成多层次高粘性的客户矩阵 2场景驱动,AI预训练数据有望增长 2.1预训练数据是AI产业链的基石 数据是AI产业链上游的基石。ChatGPT大模型引领本轮生成式AI浪潮,纵观当前的AI产业链,上游数据来源于终端场景的采集,是算法感知世界的起点; 中游模型开发是数据应用的工具;下游场景端拉动模型算法迭代;监管是贯穿上下游全环节的刚需。 图9.数据是AI产业链的基石 根据AI分析公司Congnilytica研究显示,AI项目中数据处理过程占据80%的时间,其中数据标注占比25%,针对复杂场景数据的有效预处理,可缩短数据识别、整合、增强、清洗、标注全环节的时间周期,为模型开发节约成本。 图10.数据处理过程占据AI项目80%的时间 纵观AI数据链,AI数据预训练环节是承上启下的关键抓手。 预训练数据服务承接上游数据来源:非结构数据只有经过预训练处理才能激活其价值。AI预训练数据服务将场景端语音、图像、文本、视频、点云等非结构化数据进行采集、清洗、标注、质检,形成AI模型可直接利用的有效预训练数据集。 预训练数据助力下游算法设计、训练、评测、迭代全生命周期降本增效。 (1)算法设计环节,利用小批量预训练数据对算法初步的设计进行验证,减少模型设计的方向性偏差。(2)算法训练环节,有效简化模型参数规模,节约算法开发时间。(3)算法测评环节,少量人工标注的预训练数据可作为模型输出结果的对照组,有效评定模型的准确性。(4)算法迭代环节,针对bug对预训练数据进行精确标注处理,进而对模型精准修复,有效提升模型性能。 图11.数据预训练服务商是AI数据产业链中承上启下的关键一环 上游 声音 图片 道路 人体 物体 车辆 行为 信号 2.2多模态趋势显著,提升数据预训练的重要性 多模态预训练数据是解决AI应用长尾问题的关键,大模型与垂直领域的产业结合趋势带来的多模态技术迁移,将进一步提升预训练数据环节的重要性。 海内外模型多模态趋势显著,输入数据从海量语言信息、文本信息,发展为多类垂直领域的多模态数据。叠加模型底层是模型通过对指令的理解,建立起不同模态数据,如:文本、语音、视频、图像等数据的关键特征,并建立多维映射。因此,模型训练和优化过程需要海量的多模态数据。数据预训练通过对非结构化多模态数据进行跨模态特征的提取、对齐和融合,解决产业结合下多模态数据难以有效识别和语义信息深度利用的痛点。 图12.海内外大模型均趋向多模态 模型趋向特定方向上的优化迭代,竞争焦点从参数规模转移到与数据质量。 伴随大模型与垂直领域的产业结合更多模型或将采用类强化学习模式来进行特定领域或特定方向上的优化迭代,因此,在模型预训练环节、微调环节,高质量的标注过的指令数据是模型精确度、泛化能力的基础。 竞争焦点从参数规模的竞争到数据质量的竞争。如大模型诞生初期,主流观点是参数规模是模型效果增强的核心要素,模型参数越大,性能表现越好,当前这一观点正逐渐被打破。如Llama-13B参数规模为GPT-3的1/13,依靠模型训练数据规模,最终常识推理、闭卷问答、阅读理解等方面表现略优于GPT-3。 表3.Llama-13B与GPT-3数据对比 表4.Llama-13B与GPT-3性能测试对比 2.3场景落地,驱动数据预训练需求释放 模型演变趋向算法功能至上,数据成为场景落地重要的推动力量,全球范围内AI预训练数据需求快速增长。ChatGPT诞生初期,模型预训练数据为截止到2019年5月的历史存量数据,本来伴随模型在垂直领域的结合,海量终端全新数据的标注需求有望释放。根据Cognilytica预测,2022E全球AI训练数据市场规模为393亿元,2027E年有望达到1574亿元,2022E-2027E全球市场五年复合增速31.98%。 图13.全球AI训练数据市场规模2027年有望达到1574亿元 智能驾驶是数据预训练未来五年弹性最大的应用场景,2022E-2027E五年复合增速为37%。根据德勤测算,2022E年中国基础数据服务行业市场规模为45亿元,预计2027E年最高有望