2023年深度行业分析研究报告 目录 报告缘起6 算法模型:AI巨头从开源走向闭源,软件厂商需要有所选择7 软件产业:AI驱动产品形态、市场格局重构16 应用软件:平台型、垂类软件等有望显著受益,单点解决方案或将受损16 基础软件:AI显著降低产品使用门槛,数据管理最为受益,安全、运维等亦将受益21 产业生态:更加紧密、复杂的软件分工协作体系29 插图目录 图1:ChatGPT月活破亿所花时间6 图2:微软宣布生成式AI助手Copilot对Microsoft365工具套件进行升级6 图3:从2017年开始,人工智能的底层研究从小模型转为了大模型7 图4:从2018年到2022年,人工智能模型体积增长了500倍7 图5:目前成功的人工智能独角兽都离不开互联网大厂的资金支持8 图6:谷歌+微软在2022年发布了约60%的大语言模型相关学术论文8 图7:OpenAI在文档中明确声明只会与合作方分享模型具体的实现细节9 图8:人工智能重构软件产业中间层:从小作坊式发展走向工业化道路11 图9:Meta开源的LLaMA模型效果好于GPT-3但与更大参数量的PaLM差距明显11 图10:闭源大厂会提供标准化的APIkey以便用户接入12 图11:对于大型企业客户,OpenAI根据规模(Scale)收费12 图12:4月初,意大利出于对ChatGPT数据隐私相关的担忧宣布禁用ChatGPT14 图13:Huggingface是大语言模型最大的开源项目之一,但也只拥有1万用户14 图14:BloombergGPT采用数据集15 图15:MicrosoftCopilot产品逻辑15 图16:生成式AI影响市场营销各个环节,促进转化率提升16 图17:SalesforceEinsteinGPT应用场景17 图18:PilotAI利用生成式AI从销售通话中提取信息17 图19:美股主要应用软件SaaS公司平均ACV水平18 图20:全球CRM市场份额(2022)18 图21:全球ERP市场份额(2022)18 图22:Salesforce上层应用相关的关系型、非关系数据都将在底层数据层持续沉淀19 图23:Adobe提供的实时客户数据平台(CDP)19 图24:SalesforceEinsteinGPTforDevelopers20 图25:全球低代码/无代码/智能开发工具市场规模及增速20 图26:全球低代码/无代码/智能开发工具市场份额21 图27:数据对AI模型的促进作用22 图28:数据对AI产品提升的促进作用22 图29:2020年全球数据流量比例(按应用类型)22 图30:非结构化数据占比22 图31:全球分析型数据管理和集成市场规模及增速23 图32:全球IT性能监控市场规模及增速24 图33:模型开发/调试/部署/监控全流程24 图34:ChatGPT采用Cloudflare的方案保护Web端应用安全25 图35:全球应用程序保护&可用性市场规模及增速25 图36:ZTNA主要架构25 图37:全球安全网关市场规模及增速26 图38:全球数据丢失保护市场规模及增速26 图39:全球消息安全市场规模及增速26 图40:敏捷软件开发:短的开发“冲刺”27 图41:Devops流程28 图42:全球软件开发管理市场规模及增速28 图43:全球软件开发管理市场份额(2021)28 图44:CoPilot为开发者提供代码建议29 图45:基于NLP的大语言模型拥有优秀的泛用性,将成为各类任务的底座29 图46:OpenAI的六大类模型,其中Chat是面向用户的核心入口30 图47:ChatGPT目前支持的部分插件31 图48:Grounding本质上是对用户指令优化并让大语言模型更精准理解32 图49:微调的存在让大语言模型可以满足不同垂直领域的需求33 表格目录 表1:从GPT-3开始,谷歌与OpenAI的主要模型都不再公开访问9 表2:当前主流的开源大语言模型项目及其基础模型10 表3:部分软件提供商结合AI能力的尝试10 表4:根据企业自有数据量的不同灵活选择需要的硬件数量13 表5:EinsteinGPT核心应用场景17 表6:低代码开发的基本原则21 表7:IT监控软件市场主要领域及主要玩家23 表8:XDR的核心能力27 表9:OpenAI定价模式30 表10:重点推荐公司盈利预测34 ▍报告缘起 在过去的半年里,我们见证了70年以来AI产业最为快速的发展,据SimilarWeb的数据显示,2022年11月在美国推出的ChatGPT,仅在短短2个月内活跃用户规模便突破1亿大关,成为全球历史上用户增长最快的消费者应用。在下游应用领域,微软宣布将ChatGPT导入到Azure、Office、Bing搜索等产品线中,谷歌亦宣布基于自身的语言大模型推出类似ChatGPT的相关产品Bard,并将AI能力导入旗下的办公产品workspace中,AI和软件产业正在快速融合。 图1:ChatGPT月活破亿所花时间(月) ChatGPT TikTok 微信 Instagram Facebook Twitter 010203040506070 资料来源:similarweb 图2:微软宣布生成式AI助手Copilot对Microsoft365工具套件进行升级 资料来源:微软Copilot发布会 全球科技巨头纷纷涌入AI市场,显示了AI产业化进程的全面加速,并将AI能力逐渐融入各类软件服务中。这场以底层技术为基础的AI升级换代,对当前软件行业的服务模式料将产生显著影响。我们分析认为,人工智能技术、软件服务之间存在天然的相关性。本篇报告将以美股软件巨头在AI领域的产品布局为起点,系统性地探讨AI和软件的可能的融合方式,以及中长期维度,AI将如何影响、乃至改变软件产业。 ▍算法模型:AI巨头从开源走向闭源,软件厂商需要有 所选择 少数科技巨头正在引领AI基础模型的发展。回顾近十年的人工智能模型发展,我们发现AI技术提供商数量稀少且进入门槛不断提高。这主要是因为从2017年起,人工智能 研究从小模型转向大语言模型,导致模型体量成倍增加,需要更多GPU算力和配套设施投入,大量的前期资本投入以及过长的回报周期阻碍了许多新进入者。 图3:从2017年开始,人工智能的底层研究从小模型转为了大模型 资料来源:中信证券研究部绘制 大模型时代,模型体积几何式增长导致前期投入过高,成功者往往依赖科技巨头的资金、数据等支持。在过去五年内,我们看到成功的人工智能独角兽都在寻找互联网科技大厂作为其背后的依靠,主要因为:1)能够得到充足而短时间内不求产出的资金支持;2) 依靠互联网大厂的公有云等相关资源进一步降低成本;3)获取互联网大厂长期以来所积累的优质数据源。 图4:从2018年到2022年,人工智能模型体积增长了500倍 资料来源:LESSWRONG,中信证券研究部 图5:目前成功的人工智能独角兽都离不开互联网大厂的资金支持 资料来源:LESSWRONG,中信证券研究部 大模型研发的高门槛让头部少数AI厂商占据主导权,并开始从技术研发向商业化落地迈进。从Bert开始到GPT-3再到谷歌的PALM,人工智能技术的发展潮流始终由OpenAI、 谷歌等少数几家巨头主导,其他厂商根据先行者的开源资料以及相关论文进行模仿并创新。但从OpenAI发布GPT-3走向商业化盈利开始,谷歌也迅速效仿,不再公布T5模型及后续版本的细节。头部的AI厂商希望将自身的技术优势构筑为商业化能力的核心壁垒,以延长后来者的追赶时间。 图6:谷歌+微软在2022年发布了约60%的大语言模型相关学术论文 200 180 160 140 120 100 80 60 40 20 0 资料来源:NeurIPS,中信证券研究部 表1:从GPT-3开始,谷歌与OpenAI的主要模型都不再公开访问 LaMDA Sparrow PaLM-E GPT系列模型 组织 Google DeepMind 谷歌 OpenAI 能否公开访问 否 否 否 有限 参数量 1370亿 700亿 5620亿 1700亿及以上 预训练语料库大小(词数) 2.81T 1.4T 7800亿TokenGPT-3近5000亿Token 模态 文字 文字 多模态GPT-4具备多模态 训练硬件 1024块TPUv3 基于TPUv3/v4 预计GPT-4使用千余块英 6144块TPUv4 伟达A100 产品化进度 BARD机器人 NA Microsoft365CopilotNAMicrosoftAzure MicrosoftBing 资料来源:谷歌、微软、OpenAI官方技术博客,中信证券研究部 人工智能头部厂商从开源走向闭源,利用其综合优势来保持持续的领先。谷歌与 OpenAI作为行业内的技术领先者已经明确选择了闭源模式:本次OpenAI推出GPT-4的形式与以往模型的发布都有所不同,OpenAI既没有公开发布GPT-4的相关论文,也没有提供详细的框架说明,仅仅提供了一份98页的技术文档(主要描述模型能力以及相关评测的得分,几乎没有任何技术细节)。通过这一方式,OpenAI阻断了所有借鉴者参考的直接途径(模型大小、数据集构建、训练方法等),将闭源的路线坚持到底。通过这一方式,OpenAI迫使想要融入GPT-4能力的软件服务商与其合作,OpenAI提供对应的API接口以及部署指导。 图7:OpenAI在文档中明确声明只会与合作方分享模型具体的实现细节 资料来源:OpenAIGPT-4技术文档 相较于头部AI厂商,追赶者更倾向于通过培养开源社区,共同迭代模型以缩小和头部厂商的差距。头部厂商闭源模型后,落后一到两个身位的公司(Meta、Amazon、NVIDIA等)可能会选择开源路线,寄希望通过社区的力量加速迭代。目前大语言模型开源社区的 主要贡献者包括Meta、NVIDIA以及Huggingface等,通过分享部分模型与大语言模型相关的知识培训逐渐培养起了一批开源开发者。Meta于2023年3月发布了其新一代大语言模型LLaMA并将源代码开源给社区。社区用户及企业可以免费使用公开的模型以及数据源,但受证书限制不能用作商业用途。 表2:当前主流的开源大语言模型项目及其基础模型 名称 基础模型 训练方法/数据集 Alpaca LLaMA Alpaca ChatMLG GLM 自定义数据集(1T) Dolly GPT-J6B Alpaca Belle Bloom Alpaca+自定义数据(2M) OpenChatKit GPT-NEO OIG-43M FastChat LLaMA shareGPT(70K) gpt4all LLaMA GPT-3.5生成的800k数据集 资料来源:Github,中信证券研究部 面对当下情形,软件服务商需在与闭源头部厂商合作或选择免费开源方案之间做出抉择。在见证了ChatGPT的成功后,拥抱AI能力成为了软件服务商的普遍共识。Gartner预计到2025年,生成式人工智能将占所有生成数据的10%。由于底层大语言模型的高门 槛,只有部分科技巨头有能力完全自研底层模型。而绝大多数软件服务商需要在成为闭源头部厂商的合作伙伴与使用自有数据在开源项目的基础上开发之间做二选一的抉择。 表3:部分软件提供商结合AI能力的尝试 基础能力 工具 特征 Artbreeder 生成图像,可选择主体的年龄、性别 Craiyon 文本到图片转换 DALL-E 创建、编辑图像,并提供商业权利来创造内容 NightCafe 生产具有不同风格和分辨率选项的艺术图 图像生成-市场、设计、生产 创建具有不同风格、长宽比等选项的艺术品,并对制作的内容拥有完全 starryai 的所有权 Colormind如果需要,允许根据电影场景、艺术品或其他图像创建调色板Designsai生成标识和横幅,提供设计模板,并能将生成的项目导出为不同的格式FrontyAI创建与移动设备和S