您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[太平洋]:海外AI应用梳理:模型能力决定下限,场景适配度决定上限 - 发现报告
当前位置:首页/行业研究/报告详情/

海外AI应用梳理:模型能力决定下限,场景适配度决定上限

文化传媒2024-06-02郑磊太平洋L***
海外AI应用梳理:模型能力决定下限,场景适配度决定上限

行业研 究传媒互联网 报 告 2024-06-02 行业深度报告 看好/维持传媒互联网 海外AI应用梳理:模型能力决定下限,场景适配度决定上限 走势比较 4,000 太 平3,000 洋2,000 证1,000 0 券 股2023-06-022023-12-02 份传媒指数沪深300 有 限子行业评级 报告摘要 开、闭源模型共存满足不同开发需求,多模态有望催生现象级应用。大语言模型方面,闭源模型是模型基础能力上限持续突破的主阵地,同时通过开放API的方式实现能力延展。此外,开源与闭源模型差距缩小,并通过微调进一步助推应用生态繁荣。多模态方面,在头部AI公司及细分赛道领先者的共同推动下,图像、音视频生成等多模态愈发成熟。此外,集成文本、语音等混合多模态模型推出,变革人机交互方式,有望在强交互性场景中催生现象级应用。 海外文本编辑类应用表现亮眼,国内有望复制海外发展路径。从4月全球访问量前100网页版AI应用来看,可分为基于大语言模型的文本编辑类和代码编程类应用,以及基于多模态模型的图像类和 公游戏 司出版 音视频/游戏类应用,共四大类。其中文本编辑类因为基础模型能力 看好技术较为成熟,因此应用最成熟:数量占比达58%,单月访问量过 看好 证影视看好 券研究 报相关研究报告 告《继续关注AI应用起量和多模态技术演进两条主线》 《Sora横空出世,关注内容资产价值重估下的两条投资主线》 证券分析师:郑磊 E-Mail:zhenglei@tpyzq.com 执业资格证书编码:S1190523060001 亿的8个应用中占7个。此外,现阶段海内外应用仍存在较大差距: 海外前十AI应用单月访问量总和为55亿,而国内为1.2亿,头部产品ChatGPT单月访问量为18.6亿,国内Kimi为2004万。但从过去3个月来看,海内外前十应用的总访问量差距正逐步缩小。 模型能力决定应用体量的下限,场景适配度决定上限。文本编辑类:海外访问量最高的是聊天机器人,其次是搜索引擎。因模型能力与场景适配度高,虚拟角色和教育应用体量上限较高:前者因容错率高有望随模型能力提升实现线性增长,而后者因容错率低需要模型出现较大迭代后方能实现体量突破。图像类应用:多数应用集成了图像生成和编辑功能,未来有望通过加深与B端场景融合实现规模增长。音视频/游戏类:全球视频和游戏市场规模均超1万亿元,场景天花板高同时AI适配度高。但因受限于多模态模型能力,目前尚未有过亿的应用。未来在AI深度赋能行业创作工作流的同时,AI+UGC视频和UGC游戏将是C端现象级应用的重要方向。 投资建议 海外访问量最高的是聊天机器人,其次是搜索引擎。因模型能力与场景适配度高,虚拟角色和教育应用体量上限较高。音视频/游戏类场景天花板高同时AI适配度高,未来在AI深度赋能行业创作工作流的同时,AI+UGC视频和UGC游戏将是该类应用的重要方向。目前海内外应用仍存在较大差距:海外前十AI应用单月访问量总和为 请务必阅读正文之后的免责条款部分守正出奇宁静致远 2 行业深度报告P 55亿,而国内为1.2亿。但从过去3个月的访问量来看,前十应用的总访问量差距正逐步缩小。看好未来国内应用快速增长的趋势,并有望复制海外应用发展路径,最先在文本编辑类应用中取得突破。其中,聊天机器人、搜索引擎、虚拟角色应用有望最先实现访问量的大幅增长。 风险提示 AI技术发展不及预期的风险、政策监管风险、行业竞争加剧的风险。 请务必阅读正文之后的免责条款部分守正出奇宁静致远 3 行业深度报告P 目录 1.模型层:大语言模型加深场景结合,多模态持续迭代5 1.1大语言模型:开、闭源共存以满足不同应用开发需求6 1.2多模态模型:技术持续演进,混合多模态有望催生现象级应用9 2.应用层:文本编辑类最成熟,国内有望复制海外路径11 2.1应用分类:文本编辑类数量最多、访问量最高11 2.2海内外应用对比:整体差距较大,国内有望复制海外发展路径14 3.海外应用梳理:模型能力决定体量下限,场景适配度决定上限16 3.1文本编辑类应用:聊天机器人最成熟,虚拟角色和教育潜力最大17 3.2图像类应用:编辑强于生成,加深与B端场景融合方能实现增长25 3.3音视频/游戏类应用:场景上限最高,模型能力仍处探索期27 4.投资建议29 5.风险提示30 请务必阅读正文之后的免责条款部分守正出奇宁静致远 图表目录 图1:AI大模型发展历程5 图2:AI产业“基础设施+模型+应用”三层级6 图3:开源和闭源模型的发展历程6 图4:闭源和开源模型在基准测试中的得分对比7 图5:OPENAI大模型API的发布及更新情况7 图6:OPENAI模型API的价格8 图7:开源和闭源模型在五样本MMLU语言理解基准测试中的得分对比9 图8:多模态模型的发展历程10 图9:OPENAIGPT-4O演示11 图10:谷歌PROJECTASTRA演示11 图11:按生成内容形式划分全球访问量前100的网页版AI应用12 图12:AIGC技术的成熟应用进程时间表13 图13:4月全球访问量前100的各类AI应用占比(%)13 图14:4月全球访问量前100的各类AI应用访问量(万)13 图15:4月海内外前十AI产品访问量总和(万)对比14 图16:4月海内外首位AI产品访问量总和(万)对比14 图17:2024年2-4月海内外访问量前十的AI产品访问量总和(万)对比15 图18:进入4月全球访问量增速前50的国内AI应用15 图19:4月访问量及增速表现亮眼的国内AI应用16 图20:4月全球访问量超千万的海外AI应用的细分类目16 图21:文本编辑类访问量超千万应用的访问量总和(亿)17 图22:聊天机器人应用17 图23:搜索引擎应用18 图24:虚拟角色应用19 图25:4月全球人均使用时长前30中的虚拟角色应用19 图26:翻译工具应用20 图27:写作工具应用20 图28:内容检测应用21 图29:生产力应用22 图30:教育应用23 图31:电商购物应用23 图32:营销工具应用24 图33:图像生成&编辑应用25 图34:PPT工具应用26 图35:音频生成应用27 图36:视频编辑应用28 图37:游戏生成应用29 1.模型层:大语言模型加深场景结合,多模态持续迭代 谷歌BERT开启大模型时代,ChatGPT推升发展热潮。1956年,达特茅斯研讨会正式提出人工智能,标志着人工智能学科诞生。此后60余年,专家系统、深度学习等关键技术不断成熟,为大模型发展奠定基础。回顾大模型发展历程,可分为以下三个阶段:1)大模型开端:2018年,谷歌发布3亿参数规模的自然语言处理模型BERT,标志着人工智能正式进入大模型时代。2)大模型探索:2020年,GPT-3发布,模型参数规模大幅提升至1750亿。随后,谷歌、微软和英伟达相继推出自然语言理解或生成模型,对大模型技术的探索持续推进。3)大模型热潮:2022年底,基于迭代后的GPT-3.5模型构建的ChatGPT发布,引起市场广泛关注,AI迎来新一轮发展热潮。此后,OpenAI的GPT-4、谷歌的Gemini1.5Pro、Anthropic的Claude3相继推出,不断提高大模型能力边界。 图1:AI大模型发展历程 资料来源:《AI大模型发展综述》,太平洋证券研究院 模型层持续迭代,带动下游应用层发展。类比于软件行业,基于服务器、操作系统等硬件和系统,开发针对不同下游场景的软件,AI产业可分为以下三个层级:1)基础设施层:由计算硬件GPU和TPU、为AI计算提供专用算力的智算平台、以及各类AI工具,如模型微调、数据标注等组成,三者共同构成了AI上层建筑的底层设施;2)模型层:依托于大量训练数据、算力资源构建的AI模型层由闭源模型和开源模型组成。两者相辅相成,共同推动AI应用发展;3)应用层:AI时代的应用基于底层大模型构建。根据大模型的不同,应用层可分为基于第三方模型构建的应用和基于自建大模型构建的垂直应用两大类。 图2:AI产业“基础设施+模型+应用”三层级 资料来源:《生成式AI现状2023》,太平洋证券研究院 1.1大语言模型:开、闭源共存以满足不同应用开发需求 双线竞争下,闭源模型和开源模型齐头并进。与软件开发和分发类似,基于代码开发的AI大模型也面临着闭源或开源模型源代码和训练数据的选择。2022年5月,Meta宣布开源拥有1750亿参数的大语言模型OPT,大模型由此开启了闭源和开源的双线竞争。随着模型能力的不断迭代与突破,目前闭源大模型以OpenAI的GPT-4、谷歌的Gemini 1.5pro、以及Anthropic的Claude3为代表;开源大模型以谷歌的Gemma、Meta的LLaMA3、以及Mistral的Mistral8x7B为代表。 图3:开源和闭源模型的发展历程 资料来源:《ChatGPT’sOne-yearanniversary:AreOpen-SourceLargeLanguageModelsCatchingup?》,太平洋证券研究院 闭源模型:能力优于开源,是模型基础能力上限持续突破的主阵地。2023年3月,OpenAI发布最新大模型GPT-4,其不仅具备对图文输入生成应答文字等多模态能力,还在上下文窗口容量、推理能力等方面实现突破,GPT-4由此成为了最强大模型。随后, 谷歌发布Gemini1.0及更新后的Gemini1.5Pro,把上下文窗口容量再次提升。进入2024年,Anthropic发布最新大模型Claude3,其在模型理解能力(MMLU)、推理能力 公司模型MT-BenchAlpacaEval-2.0OpenLLMLeaderboard (GPQA)等再次实现突破,得分超过GPT-4和Gemini1.0Ultra,成为目前能力最强的大模型。出于商业竞争、安全等因素的考量,这些模型仍均为闭源模型。对比它们与开源模型在基准测试中的得分,闭源模型表现明显更为突出。头部大模型公司正凭借科研实力、人才、算力资源等优势,成为推动模型基础能力持续实现突破的主要力量。 图4:闭源和开源模型在基准测试中的得分对比 闭源 OpenAI GPT-3.5-turbo 8.39 14.13 70.21 GPT-4 8.99 23.58 85.36 开源 Meta LLaMA2-70B-chat 6.86 13.87 - HuggingFace Zephyr-7B 7.34 10.99 52.15 Mistral Mistral-8x7B 8.30 18.26 68.42 资料来源:《ChatGPT’sOne-yearanniversary:AreOpen-SourceLargeLanguageModelsCatchingup?》,太平洋证券研究院 基于闭源模型的应用通过API实现,同时API能力提升、价格下降。基于闭源模型的应用开发通过连接闭源模型API的形式实现。API接口允许用户将模型功能集成到自己的应用程序或服务中,实现数据的输入输出和模型功能的调用。随着模型不断更新迭代,模型API的能力也正持续进化。以OpenAI为例,其大模型API已完成多次更新,并支持微调功能,逐步为用户提供能力更强、更易用的API服务。其中,最新的GPT-4oAPI实现速度提高2倍,价格便宜50%,调用模型的速率限制较GPT-4-Turbo提高5倍。价格方面,GPTAPI价格呈现随模型能力提升而下降的趋势,最新的GPT-4oAPI输入和输出百万tokens的价格分别为5、15美元,仅为GPT-4API的16.7%和25%。 图5:OpenAI大模型API的发布及更新情况 时间2020.9.18 事件内容 API发布 发布用于访问OpenAI开发的AI模型的API,其提供了一个通用的"文本输入、文本输出"接口,既简单易用,又足够灵活。 2022.11.18 API更新 1)完成了多项改进,包括提供更符合人类指令的"指令系列"