您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中邮证券]:AI语料+大模型领军者,华为合作全面升级 - 发现报告
当前位置:首页/公司研究/报告详情/

AI语料+大模型领军者,华为合作全面升级

2024-05-30孙业亮、丁子惠中邮证券话***
AI智能总结
查看更多
AI语料+大模型领军者,华为合作全面升级

AIGC领军企业,语料+算法优势显著 拓尔思作为领先的大数据及人工智能产品及服务提供商,拥有规模位列业界前茅的权威高质量公开数据超2000亿,并具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,万亿级数据总量的秒级检索能力和日均亿级数据获取能力。公司深耕自然语言处理,致力于以数据智能应用为核心,赋能不同行业的数字化转型与降本增效的场景应用,并积极与客户携手,在AIGC相关领域,如机器写作、对话式AI、内容人机协同和自动报告生成等应用场景已相继打造出一批优秀实践案例。5月20日,公司定增注册获批,进一步发力大模型研发。 2024年3月29日,由量子位主办的首届中国AIGC产业峰会在北京举行,公司凭借在AIGC领域的长期技术积累,入选“中国AIGC50”榜单。2024年5月,赛迪顾问人工智能与大数据研究中心发布了《中国大模型发展研究报告(2024)》重要研究成果,从核心技术能力、市场竞争能力、产品创新能力、市场发展潜力及生态开放能力五个维度出发,评选出中国大模型领军企业二十强。拓尔思以拓天大模型在这五个维度的综合成绩,成功入选并位居前列。 “拓天大模型”推动用户生产力变革 2023年6月29日,公司发布“拓天大模型”,并面向媒体、金融、政务领域,推出了三大行业垂类大模型。目前,基于拓天媒体专业大模型研发的内容生产智能助手、新一代搜索与推荐等插件已经在头部新闻单位中得到试用。基于拓天金融专业大模型研发的风险预警助手、审计报告辅助生成、消保内容审查意见自动生成、客服数据智能分析助手等也在多个头部银行客户中得到成功应用。 与华为签署全面合作协议,推进行业数智化转型 5月17日上午,拓尔思与华为签署全面合作协议。基于本次合作,公司与华为将充分发挥在各自领域的优势,积极推进数智化转型方面的合作,稳步推进产业数字化和数字产业化发展。 数据要素业务迎来高速发展黄金期 随着数据要素市场发展和改革不断深入,我国数据要素市场进入蓬勃发展阶段,市场规模将破千亿,拓尔思也将迎来数据要素业务高速增长的黄金发展期。公司在经营过程中形成了一套“1+1=N”的商业模式,即基于自研的大数据底座和人工智能底座,以场景驱动推出N个行业数据和云服务。目前,该模式已在政务、金融、媒体、舆情、安全、专利等行业或领域获得了成功实践。 盈利预测及投资评级 大数据、数据安全等领域处于领先地位,得益于AIGC、数据要素等市场的快速发展,公司和各赛道的头部用户建立了长期良好的合作,用户黏性强,未来成长空间广阔,业绩有望增长,维持“买入”评级。 风险提示 技术落地不及预期;下游客户需求不及预期;政策推动存在波动性;市场竞争加剧等。 盈利预测和财务指标 1公司基本情况 1.1领先的AI、大数据服务提供商 拓尔思成立于1993年,是中文全文检索技术的始创者,领先的人工智能、大数据和数据安全产品及服务提供商。公司2011年在深圳证券交易所创业板上市,自成立以来,公司始终坚持核心技术自主研发,拥有40+发明专利、1000+软件著作权,一直引领全文检索和搜索引擎数据库、自然语言处理(NLP)技术的原始创新和应用场景落地,成功服务了一批国家级重要信息化项目的建设,成为国家企业信用信息公示系统、信用中国、国家知识产权检索系统、GA云搜索等国家级基础设施的数据管理和检索引擎。 图表1:拓尔思发展历程 公司的主营业务系大数据软件及产品分析、人工智能软件产品及服务、安全产品、系统集成及其他。公司坚持“数智+赛道”的发展战略,以优秀的科技能力打造丰富的行业解决方案,为企业、政府实现数字化升级赋能。目前,公司的数智产品与服务已被国内外10000余家企业级用户广泛使用,尤其在企业数字化转型、数字政府、网络内容安全、融媒体、金融科技和开源情报等领域实现了深度应用。公司相关产品详细情况如下: 图表2:拓尔思主营产品介绍产品类别简要说明 1.2重视研发,在手订单充足 营收端:得益于公司向政务、融媒体、金融、安全四大行业深度拓展,公司2017-2020年营收规模保持快速稳定的增长,从2017年的8.213亿元增长到2020年的13.09亿元。2020-2023年营业收入虽有下降,但是得益于在融媒体、舆情和政府网站集约化市场确立的优势地位以及发力信创,打造了自主替代产品核心力,到2023年营业收入依然达到了7.81亿元。 同时据IDC预测,在“十四五”规划和数字政府政策的引导下,数字政府市场迎来重要发展窗口期,预计到2026年将达到2173亿元人民币的市场规模,是有效推动数字中国建设的重要组成部分。随着政府相关单位对人工智能(而非大数据)等产品需求的释放,公安、安全等刚性领域需求的增多,且公司针对政府相关单位客户的进一步下沉和拓展,潜在政府相关单位客户将增多,新增订单量预计上涨,并随着公司大模型等人工智能等相关新产品的不断推出和行业的横向拓展,公司业绩有望逐渐恢复并反弹。截至2023年末,公司在手订单金额为54,290.74万元,较2022年末增加1448.05万元,公司期末在手订单金额同比开始上升。 图表3:营业收入(亿元)及其增速 图表4:单季度营业收入(亿元)及其增速 利润端:2018-2020年归母净利润由60.93百万元上涨到了319.2百万元,2020年同比增长103.03%。从2021年开始,公司逐年加大研发投入,主营业务不再包括上年度合并报表涉及的公司西部区域总部及大数据研发和运营服务基地项目配套商业用房销售收入,以及原控股子公司耐特康赛网络技术(北京)有限公司的互联网营销业务收入,同时,子公司天行网安23年大幅减少集成业务,所以从2021年后归母净利润持续下滑,2023年同比增长率为-71.45%。 图表5:归母净利润(百万)及其增速 图表6:单季度归母净利润(百万)及其增速 盈利能力与期间费用:公司毛利率水平相对较高,2018-2023年主营业务毛利率分别为59.44%、61.75%、58.07%、62.13%、63.71%、68.73%。2018-2023这六年之间毛利率始终保持在60%左右,并有着继续上涨的趋势。2022年,为提升自己产品的市场覆盖率,销售费用投入达到了1.406亿元,较2021年同比增长18.81%。从产品分类来看,公司主要业务为大数据、人工智能、安全软件及服务,随着公司市场地位不断提升,核心技术的不断开发,2024、2025年可能迎来业务发展新高峰。 研发费用:2022年,公司较大幅度增加研发投入,用于实现主营业务产品的版本技术的升级以及核心产品的开发。2022年公司的研发费用达到1.274亿元,公司推进构建云和数据服务生态,打造自主替代产品核心力,布局元宇宙,拓展虚拟人,提升公司未来的竞争力。 图表7:毛利率 图表8:研发费用(百万元)及其增速 1.3股权结构稳定,管理层经验丰富 公司拥有优秀的研发和技术团队,具备完善的人才梯队,拥有技术人员1353人,占比达到82.65%,本科及以上学历员工占比65.85%。公司核心技术团队拥有前沿的技术,管理层具有丰富的行业经验和技术积累。 图表9:拓尔思员工结构图(人) 公司的管理团队:董事长施水才先生,毕业于西安电子科技大学计算机应用专业,获硕士学位,2017年获清华大学五道口金融学院EMBA学位,1998年晋升教授。副董事长李渝勤女士,毕业于电子科技大学计算机工程专业,获学士学位,北京大学光华管理学院EMBA硕士学位,教授级高级工程师。 图表10:拓尔思股权结构图 图表11:拓尔思管理团队管理团队职务 1.4定增注册获批,进一步发力大模型研发 5月20日,公司发布《关于向特定对象发行股票申请获得中国证监会同意注册批复的公告》。据定增预案显示,公司拟定增发行不超约2.39亿股股份,募资总额不超约18.45亿元,用于拓天行业大模型研发及AIGC应用产业化项目。系基于公司的海量高质量行业数据、行业知识体系等知识型资产,在通用大模型的基础上构建拓天行业大模型,并实现AIGC在媒体、政务、金融等领域的产业化应用。 具体来看,公司18.45亿元募资中有8.41亿元将用于软硬件购置,5.1亿元将用于研发人员薪酬,2.57亿元用于租赁费,1.98亿元用于数据资源购买,分别占到总募资额的45.57%、27.66%、13.95%和10.73%,剩余3845万元为铺底流动资金。项目计划建设期为3年。根据公告,本项目的税后静态投资回收期为5.96年(含建设期3年),税后投资内部收益率为13.68%。 图表12:募集项目及资金 2 AIGC领军企业,语料+算法优势显著 2.1算法+数据+算力三大核心要素决定AIGC产出质量 算法+数据+算力三大核心要素,决定AIGC产出质量。拓尔思将以“专业大模型+领域知识数据”为核,努力构建起个性化、专业性的内容自动生成壁垒。 强大的AIGC技术。拓尔思在AIGC技术方面有着长期的投入和储备,这与公司一直专注自然语言处理技术的研发和互联网大数据的积累等优势一脉相承。公司基于通用AIGC大模型,专注优势行业进行专业大模型的研发,融合学习行业特有的大数据和知识,提升大模型对行业应用的适配性,以预训练大模型、In-Context Learning、instruction tuning等技术为基础,将文本生成、交互式生成、跨模态生成、小样本学习、大模型与外部知识库的融合等功能作为研发重点,突破基于大模型的AIGC关键技术,在问答式AI、智能创作、搜索引擎等领域实现成功应用。 图表13:AIGC关键技术介绍 加快推进“智创”AIGC平台的研发。“智创”是一款专注文字生成类的内容自动生产平台,其依托公司长期积累的自然语言处理技术和人工智能平台产品为基础,融合开源大模型,将专注在辅助型、应用型、创作型等文本内容的自动生成研发,以个性化、专业性的内容自动生成为壁垒,保持在AI领域的技术竞争力。 图表14:拓尔思“智创”AIGC平台 海量的语料积累。公司作为领先的大数据及人工智能产品及服务提供商,拥有规模位列业界前茅的权威高质量公开数据超2000亿,并具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,万亿级数据总量的秒级检索能力和日均亿级数据获取能力。近期与多家头部大模型的人工智能公司和国家级实验室签订合同,为其提供高质量多元化的数据,作为大模型预训练数据集。公司自有的产业要素数据集、产业风险数据集与电子报刊数据、互联网主流新闻网站数据、新闻资讯客户端数据、政务网站数据、拓知基因数据库先后入选北京市首批与第二批人工智能大模型高质量数据集。 2023年11月29日,2023人工智能计算大会AICC于北京开幕。智源研究院联合拓尔思等单位共建的“中文互联网语料库”(Chinese Corpora Internet,简称CCI)在大会分论坛大模型创新论坛上正式发布。在CCI中,拓尔思主要提供中央重点新闻网站及中央和地方政府门户网站数据集。 图表15:首个中文互联网语料库数据来源 充足的算力。公司算力主要采取自采自建+公有云模式,能够有效满足行业大模型训练及技术迭代需求。2023年5月,公司已同首都在线签署战略合作协议,通过迁移算力至首都在线拓尔思专属算力平台,公司可以享受到更快速、灵活的智能算力服务,大大提高数据处理和计算效率。目前,公司已采购小批量A800显卡,A100算力性能主要通过算力租赁实现。 2.2技术+产品+场景的完美结合促进AIGC商业落地 技术+产品+场景的完美结合,才能实现AIGC推动更多商业落地进程。拓尔思将在类人助手的道路上开拓全新模式,在G+B双端的需求持续催化下,优化创新对话式AI、智能创作、AIGC搜索引擎等应用场景,实现用数字化劳动力替代枯燥重复性劳动、扩充资源稀缺劳动力、协助人类完成相应任务和满足人类情感交流的需求。 公司深耕自然语言处理,致力于以数据智能应用为核心,赋能不同行业的数字化转型与降本增效的场景应用,并积极与客户携手,在AIGC相关领域,如机器写作、对话式AI、内容人机协