行业报告|行业深度研究 数据研究·科技专题 AI产业人士看大模型发展趋势 证券研究报告 2023年7月4日 分析师孙谦SAC执业证书编号:S1110521050004 作者: 分析师黄海利SAC执业证书编号:S1110522090003 请务必阅读正文之后的信息披露和免责申明 行业评级:强于大市(维持评级)上次评级:强于大市 摘要 人工智能是当今最热门的技术领域之一,也是中国互联网公司的重要战略方向。本报告基于对9位来自中国AI科技团队的产业人士问卷调研,分析了中国AI产业在资源投入、模型发展、数据隐私保护和行业合作等方面的表现,以及面临的挑战和机遇。用科学数据证据给读者提供全面的视角洞察中国AI产业的发展现状和未来趋势。 亿级资金有望注入,团队扩容力度加大。根据公司战略定位和发展重点,在技术研发、算力资源投入、数据采集与标注以及市场推广与商业化扩展方面存在投入差异。同时,AI人力资源也在不断扩张,采取多元化的策略来吸引和培养人才。 AI模型新发布可期,复杂数据处理升级。下半年有多个AI模型发布计划,涵盖自然语言处理、计算机视觉和跨模态领域。在模型发布 中,Transformer架构是主流选择。数据挑战、模型优化和商业化仍是AI团队面临的瓶颈。虽然大模型在应用场景中扩展,并非模型规模越大越好,也需综合考虑数据和模型的质量。 数据多样性、数据合作和数据隐私保护是中国AI公司在数据领域的关键关注点。数据多样性与合作是关键,共享数据合作是重要趋势。 图像和自然语言数据集普及度高,物体检测数据集应用较少。中国AI公司重视数据安全与隐私保护,采取多层防护措施、动态处理与隐私保护并重,以用户为中心保护用户数据。 AI硬件投入将继续保持强劲的发展势头。服务器部署反映算力需求,大部分公司有服务器扩张计划。不同公司在计算资源的使用量、 成本和供应商选择上存在差异,反映出它们在AI技术发展上的投入和战略规划。中国本土公司在半导体领域的发展也不容忽视。 AI商业化需要持续投入和优化,而营销策略中突出大模型的创新性和应用价值是至关重要的。按交易量费和定制开发费是中国AI科技团队主要的收费模式,显示出对需求敏感性和灵活盈利模式的重视。调研结果还揭示了AI服务费用反映了模型复杂性、服务质量和市场竞争的因素,需要综合评估选择。 AI的跨行业应用和行业合作是推动技术发展和创新的关键。AI应用有广阔的发展空间,需要各行业积极与AI公司合作推动数字化和智 能化转型,同时加强数据隐私保护。我们认为,未来行业整合、竞争加剧和新兴创业公司崛起的可能性较大。 风险提示:样本代表性风险,人工智能行业发展不及预期,商业模式仍不明朗,法律风险 目录 •亿级资金有望注入与团队扩容力度加大 –2023年亿级资金有望注入,资源投入差异初显布局重点 –科技公司AI团队扩容力度加大 •从架构到发布,从训练到优化 –Transformer为主流模型架构,适应复杂任务 –AI模型新发布可期,复杂数据处理升级 –分布式训练与模型并行训练广泛普及,积极探索新的训练技术 –模型优化与数据问题是制约模型发展的公认瓶颈 •数据集的创新、融合和保障 –资料来源多样化、混合化、开放化 –图像、语言、问答数据集主导,物体检测集暂露头角 –重视数据隐私保护,全方位实践 •AI发展的底层引擎——计算硬件 –服务器部署反映算力需求,增长意愿仍显热络 –计算资源使用量有显著差异,2023年扩增平均幅达20% –2023年AI科技公司计算资源硬件扩增情况 –GPU单价成本高昂,英伟达为供应商首选,本土公司成长不容小觑 –算力战争:硬件和软件相辅相成 •大模型商业化落地现状与趋势 –按交易量费、定制开发费是主要的收费模式 –订阅收费与API收费标准 –AI科技公司活跃用户总量与月度调用量 –大模型垂直应用行业部署与应用成熟度 –从“人”“货”“场”看客户拓展策略与成功要素 •中国AI领域的未来:整合,竞争,开放性与创新 1 亿级资金有望注入与团队扩容力度加大 请务必阅读正文之后的信息披露和免责申明4 2023年亿级资金有望注入,资源投入差异初显布局重点 66.7% 33.3% 0.0% 亿级 千万级 百万级 资金投入是AI团队发展的重要保障, 66.7%的调研公司在AI领域的投资都 达到了亿级规模。 据中国信通院公布的测算数据, 2021年中国人工智能产业规模为 4041亿元,同比增长33.3%。 据德勤,2020年百度、腾讯、阿里巴巴等企业在人工智能领域的投资金额再创新高,达到1748亿元。 Q:贵公司大模型资金投入是多少量级?Q:贵公司各类资源投入占总投入比重是多少?(%) 中国AI科技公司在技术研发、算力资源投入、数据采集及标注以及市场推广与商业化扩展方面的投入比重差异,体现了他们的战略定位和发展重点。技术研发与创新是AI公司持续领先的核心驱动力,占据资源投入的最大比重(avg34%)。 算力资源投入(avg32%)则是AI研发的基础设施,云计算、分布式计算、AI芯片等在支撑大数据处理和模型训练方面发挥 着关键作用。阿里巴巴的阿里云,百度的百度云,华为的云服务等,都在扩充算力资源,以满足AI应用的需求,比如,百度开发了百度机器学习BML(BaiduMachineLearning)平台,提供从开发到部署一站式服务,阿里云为用户提供了阿里云机器学习PAI平台,华为云ModelArts是面向AI开发者的一站式开发平台。 数据采集与标注则是AI算法训练的关键(avg19%)。一些科技公司利用自身的生态系统进行大量的数据采集,并通过人工 或半人工方式进行数据标注。例如百度EasyData智能数据服务平台提供便捷的数据采集方案,丰富的数据标注模板及工具,支持将采集、标注、加工等处理后的高质量数据直接对接至EasyDL、BML等百度AI开发平台,服务于后续的模型训练输出 更高精度的模型效果。市场推广与商业化扩展则是AI技术走向市场、实现价值的关键环节。 科技公司AI团队扩容力度加大 Q:据您了解,贵公司大模型相关工作人员数量? 自人工智能技术开始兴起,中国的科技公司已迅速跻身全球人工智能开发的前列。国内各大科技巨头积极推动AI发展,通过人力资源的扩张和大额资金的注 88.9% 计划人员扩容 88.9%的参访公司表示未来有人员扩充计划,按照扩充比例分布来看,AI大模型大军扩容激进,其中一家公司近乎人员翻倍的计划。 入,以巩固其在市场上的领先地位。人才的重要性不言而喻,是AI创新的主要 推动力。 <50人50-200人 200-500人 500-1000人 中国AI科技团队正在采取多元化的策略来吸引和培养人才 •据与调人士:大部分公司选择与高校或研究机构合作(88.9%),对学生进行实地培训,这种方式既能拓宽人才来源,也可以让人才更早地适应实际工作环境。一部分公司会专门设计一套系统的AI人才培养计划 (55.6%),包括提供内外部的专业培训、设立激励机制等,旨在发掘和提升员工的潜力。除了培养内部人才,这些公司在招聘时也会针对高级AI人才制定吸引策略(55.6%),如提供具有竞争力的薪酬待遇。 >1000人 Q:据您了解,贵公司未来是否有人员扩充计划?计划扩容幅度是多少? 人员扩容计划人员扩张规模人才培养措施: B公司 √ 100%+ C公司 √ - A公司 不了解 - D公司√10-15% H公司 √ 10% G公司 √ 20% E公司 √ 50% I公司 √ 50% J公司 √ 30% 与高校、研究机构等开展合作培养有专门的AI人才培养项目或计划在招聘时有针对性的吸引高级AI人才加入提供了具有竞争力的薪酬待遇来吸引或留住高级人才提供外部的专业培训和发展机会设立激励机制来鼓励员工的创新和突破性成果提供内部的专业培训和发展机会关注员工工作生活平衡,为员工创造良好工作环境提供了明确的职业发展路径和晋升机会 √√√ √√√√√ √√√√√√√√√ √√√ √√√ √√√ √√√ √√√√ √√√√ 采取哪些措施培养AI人才? 相对薄弱的培养环节 •提供内部的专业培训和发展机会(33.3%):内部培训能够快速提升员工的专业技能,符合公司的发展需求。这表明尚有一些公司在这方面可能有所欠缺。 •关注员工工作生活平衡,为员工创造良好工作环境(22.2%):员工的工作满意度和工作效率往往与工作环境和工作生活平衡密切相关。这个比例较低可能意味着许多公司需要更加重视员工的工作生活平衡。 •提供了明确的职业发展路径和晋升机会(11.1%):提供明确的职业发展路径和晋升机会能够激发员工的积极性和忠诚度,增强归属感,此比例最低可能反映出一些公司在职业规划方面还有待完善。 2 从架构到发布,从训练到优化 请务必阅读正文之后的信息披露和免责申明7 8资料来源:问卷调研,百度深度学习研究院、《Attentionisallyouneed》-GoogelAshishVaswani等、《ERNIE3.0:LARGE-SCALEKNOWLEDGEENHANCEDPRE-TRAININGFORLANGUAGEUNDERSTANDINGANDGENERATION》-YuSun等、天风证券研究所 Transformer为主流模型架构,适应复杂任务 选择合适的模型架构是至关重要的一步,模型的架构决定了它处理数据和学习任务的能力。在对9家中国AI团队的调研中,我们发现Transformer架构是这些公司最大模型普遍采用的架构,这一发现揭示了Transformer架构在当下AI领域的重要地位。 在未来的一段时间内,Transformer可能会保持相对的领导地位。2017年transformer架构首次被提出,至此以后该架构构成了现代AI训练神经网络的基石,从google的BERT到现在OPENAI的GPT4,都是基于Transformer的自注意力机制上建立的。纵观国内公司,例如百度在2021年7月5日提出的Ernie便采用了Transformer作为其表示模块,并在该基础上提出了“ContinualMulti-ParadigmsUnifiedPre-trainingFramework”的预训练框架,并训练出了Ernie3.0,直到2023年3月24日,百度又在基于Ernie和PLATO的基础上训练并推出了NLP大模型文心一言。 Transformer架构图百度Ernie3.0架构图 AI模型新发布可期,复杂数据处理升级 据与调人士,大模型预计发布的领域主要集中在自然语言处理(NLP)、计算机视觉(CV)和跨模态三个方面。目前,NLP和CV是人工智能领域较成熟和活跃的两个方向,而跨模态是近年来兴起的一个新兴方向。这些领域都拥有丰富的数据资源和多样化的应用场景,为大模型的发展提供了基础和动力。 大模型的发布呈现出多样化和细分化的趋势。据与调人士结果,有5家公司计划发布NLP模型(最大参数量级1万亿),6家公司计划发布CV模型(最大参数量级1万亿),4家公司计划发布跨模态模型(最大参数量级1万亿)。有趣的是,调研中的公司都没有科学计算模型发布的计划。 大模型的发布频率呈现出加速的趋势。中国的AI团队在2023年开始密集发布各类模型。清华智谱AI研发的GLM-130B于3月14开启内测,并开源了单卡版模型GLM-6B;百度于3月16日推出了其最新的生成式人工智能产品和知识增强型大语言模型(LLM)ERNIEBot;商汤科技4月10日公布“日日新SenseNova”大模型体系,推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力;阿里云4月11日推出语言大模型“通义千问”;科大讯飞5月6日星火认知大模型正式对外发布,时隔一个月,6月9日又推出星火大模型V1.5;北京智源研究院6月9日发布了全面开源的“悟道3.0”系列大模型及算法 Q:据您了解,贵公司2023年是否有发布新模型的计划?预计发布模型参数量是多少?