行业研读| 2023/08 中国:人工智能系列 摘要 算法技术和数据质量构建了模型的竞争壁垒 自然语言处理(NLP)大模型利用深度学习技术理解、解释和生成人类语言,通过三个主要部分:将文本转化为输入向量,通过注意力机制捕捉依赖关系,并生成输出向量来完成诸如机器翻译、文本摘要、情感分析和问答系统等特定语言任务。 算法技术和数据质量构建了模型的竞争壁垒。构建NLP大模型的关键技术集中在提示学习和强化学习算法上。底层数据的质量取决于生态、数据标准等多方面因素,在代码撰写数据方面,中国与海外差距明显。 中国NLP大模型的市场规模在2019年开始出现,智源的成立标志着行业进入了萌芽期。2020年9月,NLP大模型悟道3.0正式公开发布,开启了NLP大模型行业商业化落地的开端。2022年6月,GPT3.5的发布开始带动行业的高速发展,行业规模在2022年达到了668亿元。NLP大模型正快速渗透语音与NLP行业,很多厂商已嵌入智能客服和文本生成中,五年内渗透率预计超90%。OPENAI推出GPT3.5后,3个月用户超20亿,成为新增用户最快应用。人工智能在搜索、推荐等领域展现巨大潜力,推动行业迅速增长至千亿美金。中国NLP大模型预计CAGR将以20.7%的增长速度高速发展。 NLP大模型在消费端的发展潜力巨大,是众多厂商的重要战略方向 通过智能交互,NLP大模型具备将多购物端口集中在单一购物端口的能力,展现了改变消费端线上购物生态的潜力。未来的购物场景可能是消费者通过以NLP大模型为端口的软件进行购物推荐、旅游行程制定、食品外卖以及商品外送等,只需发送指令,NLP大模型便可智能化帮助完成任务,从而获得大量端口流量,为企业带来巨额营收。 因此,NLP大模型在C端的发展潜力极大,成为众多NLP大模型厂商的重点战略方向。 研究目的 了解中国NLP大模型在不同行业的应用场景,通过探究中国NLP大模型的市场发展概况,分析其未来的发展趋势、竞争壁垒 研究目标 了解中国NLP大模型的行业应用分析中国NLP大模型的关键技术预测中国NLP大模型发展趋势 探析中国NLP大模型潜在行业发力场景预判中国NLP大模型的未来走势 本报告的关键问题 技术架构:中国NLP大模型的技术路径是如何达成的?哪些关键技术是促进NLP大模型的核心因素? 竞争壁垒:中国NLP大模型应该打造哪些壁垒来支撑其在未来的领先地位和可持续性发展态势? 竞争格局:目前哪些落地NLP大模型的综合表现更好?竞争决定的因素有哪些? Transformer:解题方案的准确而完整的指令描述。算法代表着用系统的方法描述解决问题的策略机制。 深度学习:一类人工智能主流算法的总称,可基于海量数据训练具有大量隐含层的人工神经网络模型(即深度神经网络),使其完成图像识别、语音识别等特定的人工智能任务。 云计算:一种通过互联网以服务的方式提供可伸缩的虚拟化的资源的计算模式,可使用户通过与云计算服务商的少量交互,快速、便捷地进入可配置的计算资源共享池,并按用户需求调取计算、存储、网络等各类资源并按用量付费。 NLP自然语言处理:NLP,是一门研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法的计算机学科。 计算机视觉:计算机视觉是一门研究如何使机器“看见”以及理解和解析图像信息的学科。这一领域试图模仿或增强人类视觉的功能,让机器能够从图像或者视频中识别并理解物体、场景、活动等信息。 编码器(Encoder):NLP大模型的编码器是一个复杂的神经网络结构,用于理解和转换自然语言文本输入,将其映射到一个连续的向量空间,从而捕捉语言中的语法和语义信息。 解码器(Decoder):NLP大模型的解码器是神经网络的一部分,它从编码器提取的连续向量空间中解释信息,并将其转换为有意义的自然语言文本输出,如文本生成、翻译或解答任务中所需。 自然语言处理(NLP)大模型是一种利用深度学习技术来理解、解释和生成人类语言的高参数模型。NLP大模型通过编码解码的方式模仿人类处理语言的过程从而达到进行自然语言文本输出的能力。 从统计方法解决基本问题,到神经网络改善维度和稀疏性问题,再到预训练模型实现无监督和迁移学习的创新,NLP在各阶段均实现了显著的技术进展,如今正式进入超10亿参数规模的大模型时代。 2022年中国基于NLP大模型的人工智能市场规模达到了668亿元;由于NLP大模型对人工智能产业带来了革命性的影响,预计未来这一行业将迎来高速增长,CAGR将达到20.7%。 中国NLP大模型行业综述——NLP大模型的定义 自然语言处理(NLP)大模型是一种利用深度学习技术来理解、解释和生成人类语言的高参数模型。NLP大模型通过编码解码的方式模仿人类处理语言的过程从而达到进行自然语言文本输出的能力 NLP大模型底层Transfromer架构的技术原理图 人类处理语言文本的方式 输出要说的语言 接受听或看到的语言信息 大脑进行理解 大模型处理语言文本的方式 残差连接&层归一化 残差连接&层归一化 残差连接&层归一化 输出向量 多头注意力机制 多头注意力机制 线性层 Softm ax函数 前馈 位置编码 残差连接&层归一化 残差连接&层归一化 输入向量 多头注意力机制 前馈 自然语言输出结果 位置编码 NLP模型通过模仿人类处理语言的方式,通过解码器、编码器和注意力机制进行文字内容产出 自然语言处理(NLP)大模型是一种利用深度学习技术来理解、解释和生成人类语言的复杂模型。这些大型模型通常由数十亿甚至数万亿个参数组成,使它们能够从大量文本数据中捕获语言的复杂模式和微妙含义。NLP大模型在诸如机器翻译、文本摘要、情感分析和问答系统等任务上展现出卓越的性能。 NLP大模型模仿人类的处理过程,由三个主要部分组成。首先,通过输入层将文本转化为数值的输入向量,为模型提供可处理的信息;其次,在处理层,模型通过复杂的注意力机制捕捉语句内的依赖关系,以理解句子结构和含义;最后,在输出层,模型生成输出向量,利用这些信息完成特定的语言任务,如文本分类、翻译或问答等。 中国NLP大模型行业综述——NLP大模型的发展历程 从统计方法解决基本问题,到神经网络改善维度和稀疏性问题,再到预训练模型实现无监督和迁移学习的创新,NLP在各阶段均实现了显著的技术进展,如今正式进入超10亿参数规模的大模型时代 NLP大模型的发展历程,1906-2023 基于Transformer的NLP大模型 基于神经网络的NLP模型 -Transformer模型-BERT模型-GPT模型-GPT-4模型 基于统计的NLP模型-马尔可夫链 -神经语言模型(NNLM)-序列到序列学习 -N-Gram -Statistical Machine Translation (SMT) 1906-2000 2001-2017 2018-2023 基于统计理论为基础的NLP模型 基于统计的语言模型是通过分析语料库中的词频和词序列出现概率来构建的。其中,n-gram模型是一种常见方法,它假设当前词的出现概率仅与前n-1个词有关,从而简化了计算的复杂性。在信息论的背景下,该类模型通常使用困惑度、交叉熵和最大似然估计等度量来评估和调整模型的性能。尽管基于统计的方法在某些方面效果显著,但仍存在一些挑战,例如数据稀疏问题、维度灾难和无法准确捕捉词义的问题。 基于神经网络模型的NLP模型 基于神经网络的语言模型是一种利用神经网络计算词序列概率的方法,克服了传统的n-gram语言模型的维度灾难和数据稀疏问题。在这个阶段,神经语言模型(NNLM)和预训练词向量(Word2Vec)成为了代表性的工具。尽管基于神经网络的语言模型在这一阶段取得了显著的进步,但仍然存在一些局限性,如无法捕捉长距离依赖、无法处理未登录词、无法利用大规模无标注数据等问题。 基于Transformer架构的NLP大模型 预训练的大型自然语言处理(NLP)模型为无监督和迁移学习提供了一个新的路径。 这种模型允许NLP任务从无标签的语料库中获取通用的语言模型能力,然后通过少量标签数据进行微调,实现任务导向的训练。这种方式大大降低了大量训练数据的需求,从而有效地解决了资源稀缺任务对大量标注数据的依赖。基于Transformer架构的NLP大模型还解决了基于神经网络的NLP模型存在的一些关键问题,如双向上下文信息捕捉不足、复杂语言关系表征困难等,从而进一步提升了NLP任务的性能和效果。 中国NLP大模型行业综述——NLP大模型的市场规模 2022年中国基于NLP大模型的人工智能市场规模达到了668亿元;由于NLP大模型对人工智能产业带来了革命性的影响,预计未来这一行业将迎来高速增长,CAGR将达到20.7% 基于NLP大模型的人工智能市场规模,2020年-2027年预测单位:亿元 2,000 CAGR:20.7% 1,600 1,713 1,440 完整版登录www.leadleo.com 1,200 1,197 CAGR:26.9% 搜索《2023年中国NLP大模型行业概览:重塑人机交互,NLP大模型引领 977 未来》 800 795 668 560 400 414 2020 2021 2022 2023E 2024E 2025E 2026E 2027E NLP大模型带动的人工智能市场规模 未来缺乏大模型能力的AI企业将难以生存,基于AI大模型的人工智能市场规模将迎来高速增长。目前,NLP大模型在大模型中占据了超80%的占比,剩余由CV大模型占据,决策大模型的占比较少,模型尚未成熟 AI大模型带动的人工智能市场规模 N L P大模型在AI大模型的渗透率 2020年,随着智源和百度的NLP大模型发布,行业正式进入萌芽期。2022年中国基于NLP大模型的人工智能市场规模达到了668亿元 中国NLP大模型的市场规模在2019年开始出现,智源的成立标志着行业进入了萌芽期。2020年9月,NLP大模型悟道3.0正式公开发布,开启了NLP大模型行业商业化落地的开端。2022年6月,GPT3.5的发布开始带动行业的高速发展,行业规模在2022年达到了668亿元。 由于NLP大模型对人工智能产业带来了革命性的影响,预计未来NLP大模型的行业将迎来高速增长 NLP大模型正快速渗透语音与NLP行业,很多厂商已嵌入智能客服和文本生成中,五年内渗透率预计超90%。OPENAI推出GPT3.5后,3个月用户超20亿,成为新增用户最快应用。人工智能在搜索、推荐等领域展现巨大潜力,推动行业迅速增长至千亿美金。中国NLP大模型预计CAGR将以20.7%的增长速度高速发展。 NLP大模型产业链上游由算力基础设施、数据服务商以及算法框架供应商组成;中游为各类NLP大模型开发厂商;下游需求用户主要包括各类NLP应用开发商以及AIGC内容创作者。 Transformer架构打破传统NLP模型限制,训练速度更快且可以记忆长久的输入数据。而以Decoder-only架构为核心的GPT-3在发布后展现出超强语言泛化能力,逐渐成为现今NLP大模型的主流技术架构。 NLP大模型的商业主要有两种方式:一是作为智能系统组成部分增效,如微软将GPT嵌入搜索引擎;二是将大模型打造为基础服务,如OpenAI通过API或直销提供,消费者可按需付费或月订购。 中国NLP大模型产业链发展洞察——产业链图谱 NLP大模型产业链上游由算力基础设施、数据服务商以及算法框架供应商组成;中游为各类NLP大模型开发厂商;下游需求用户主要包括各类NLP应用开发商以及AIGC内容创作者 NLP大模型产业链图谱 AI芯片供应商 云计算基础设施供应商 基础设施 上游 数据服务商 机器学习框架 NLP大模型开发厂商 通用基础语言大模型 垂直基础语言大模型 中游 NLP