摘要 研究目的—— 自然语言处理(NLP)是人工智能最为关键的核心技术之一 自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流 2022年NLP新模型——ChatGPT问世,迅速获得社会各界的高度关注,其凭借高质量的文本理解和创作能力标志着NLP将进入一个新的纪元。本篇报告聚焦于中国NLP行业的发展现状,从结合行业政策、产业链分析、应用场景及落地案例等分析维度,挖掘出中国NLP行业的领导企业,并给出对于中国NLP行业发展的理解与解读 中国NLP市场规模于2021年达到181.3亿元;在AI技术不断融合与迭代升级的背景下,预计中国NLP市场于2026年达到836.6亿元 中国NLP行业市场规模2021年达到181.3亿元,CAGR为87.4%。随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚 拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模于2026年达到836.6亿元 NLP技术在金融领域的功能作用主要包括语言交互和金融分析,分别应用于交互型场景和分析型场景 在交互型场景中NLP产品的核心价值在于快速理解客户表达的语义信息并进行恰当的回复,多用于流程化和标准化的业务环节中有利于金融机构精简客服人员并提升客服效率与质量。在分析型场 景中NLP产品的核心价值在于对市场的海量金融资讯进行信息处理,提供智能分析结论,为金融机构作出决策行为提供辅助 自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流,是人工智能最为关键的核心技术之一 过去5年,随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达到181.3亿元,CAGR为87.4%。随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模将维持快速增长趋势,于2026年达到836.6亿元,CAGR为35.7% 中国自然语言处理行业综述——定义与概念 自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流,是人工智能最为关键的核心技术之一 自然语言处理的定义与内涵 自然语言处理(NLP) 定义:自然语言处理是通过构建算法使计算机自动分析、表征人类自然语言的学科。自然语言处理是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本(包括字、词、句和篇章)的能力,实现人机间的信息交流 自然语言理解的基本任务 图灵试验·判别标准 语音分析 词法分析 句法分析 语义分析 语用分析 问答,机器能否正确回答输入文本的相关问题 根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词 对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各自在句中的作用 判断计算机是否能够理解某种自然语言 文摘生成,机器是否能够生成输入文本的摘要 找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念 研究语言所存在的外界环境对语言使用者所产生的影响 找出词汇的各个词素,从中获得语言学的信息 释义,机器是否能够用不同的词句复述输入的文本 翻译,机器是否具有将文本翻译成另一种语言的能力 技术目标 具备自学习进化能力 推理、规划、决策 感知和情感表达 理解人类语言 用人类语言表达 中国自然语言处理行业综述——发展历程 NLP技术经历了70多年的发展历史,按照技术的角度,大致可分为NLP1.0:基于规则,NLP2.0:基于统计和NLP3.0:基于深度学习三个阶段,其中2022年ChatGPT的出现使得NLP的智能化水平大幅提升 自然语言处理技术发展历程 中国自然语言处理行业综述——发展现状:ChatGPT 2022年OpenAI推出NLP领域的新型“对话式机器人”——ChatGPT,它能够准确理解人类语言的意图,与用户进行交互,并可根据用户输入的指令高质量地自动生成新的文本内容,被称作是“AIGC的里程碑” ChatGPT概况 ChatGPT相较于传统NLP模型的优势 文案等自动生成 ChatGPT支持多轮对话,在自然语言交互方面、情感分析、情景会话等方面运行流畅,在语言模仿能力和逻辑判断方面展现出更强的能力 更强的对话能力 翻译、转录、总结文本等 机器翻译 ChatGPT 代码生成 聊天、倾诉、陪伴 更全面的语言能力 ChatGPT支持多种语言环境,并支持长短句输入,在阅读理解、复杂语句处理、逻辑能力和文本生成方面更加灵活 问答对话 高智能知识问答、哲学思考 ChatGPT是在GPT 3.5大模型语言模型的基础上,加入“基于人类反馈的强化学习”来不断微调预训练语言模型,使得ChatGPT学会理解用户输入的不同类型的指令,并通过多重标准(例如是否富含信息、内容丰富程度、是否对用户有帮助、无害、不包含歧视信息等标准)合理判断其生成和输出的内容是否为优质信息 ChatGPT的训练模型支持大规模数据集,具备海量的话题库,通用性更强,拥有更高精度的预测能力 更准确的预测能力 中国自然语言处理行业综述——发展现状:专利情况 中国NLP技术专利呈现先平稳增长后爆发式增长的趋势,2015年后在数据量上涨,芯片算力提升和深度学习算法更新迭代的驱动下,中国NLP技术专利申请量进入高速增长区间,百度累计申请量位居榜首 中国NLP技术领域专利申请情况,2011-2020年 中国部分企业/机构NLP技术累计专利申请量排名,2021年 百度以2019项的成绩占据NLP技术累计专利申请量的榜首 中国NLP理技术的专利布局呈现先平稳增长后爆发式增长的趋势 从中国NLP主要创新主体的专利申请量来看,截至2021年百度NLP技术专利申请量为2019项,位于业内榜首,由此表明百度在NLP技术领域具有领先的技术研发创新和专利布局战略优势;腾讯集团以1,336项的申请量位居第二,具有深厚的NLP技术基础。在科研院所中,浙江大学、清华大学、中科院所名列前茅,由此表明中国高校和科研机构的NLP技术创新活跃度较高 2015年之前中国NLP年度专利布局缓慢增长,由2011年1,207项增长至2,565项,年均复合增长率为20.74%。2015年后,在数据量上涨,芯片算力提升和深度学习算法更新迭代等因素的驱动下,NLP技术得以高速发展,推动中国NLP专利布局呈现指数级增长态势,B端NLP专利布局高度活跃 中国自然语言处理行业综述——市场规模 随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达181.3亿元;在AI技术不断融合与迭代升级的背景下,预计中国NLP市场于2026年达到836.6亿元 中国NLP行业市场规模预测(按营收计),2017-2026年预测 头豹洞察 单位:[亿元] 2021年中国NLP行业市场规模为203亿元,预计未来5年将维持快速增长趋势,于2026年达到500亿元 测算逻辑 过去5年,随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达到181.3亿元,CAGR为87.4% NLP市场规模 NLP软件市场规模 随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模将维持快速增长趋势,于2026年达到836.6亿元,CAGR为35.7% NLP硬件市场规模 完整版登录www.leadleo.com 搜索《2023年自然语言理解行业概览:人与机器语言交互的核心技术》 NLP服务市场规模 中国自然语言处理行业综述——发展趋势 中国NLP行业发展将呈现三大发展趋势,分别为多模态语言处理加速融合、智能创作向高度智能化迈进、NLP数据服务将进入高质量发展阶段 中国NLP行业发展趋势 深度学习神经网络的引进使得语言模态、文字模态、图像模态和视频模态的编码和解码可在同一个深度学习框架下统一运行。不同模态的对象可被同一模式编码与解码,同一模式的编码与解码即可使不同模态对象随意融合,各种语言分析的结果可与语音分析、图像分析结果结合应用,产生更多的产品应用模式。未来NLP技术必将与语音处理技术、图像处理技术等人工智能技术加速融合,赋予AI高度智能 多模态语言处理加速融合 中国NLP行业发展趋势 2022年AIGC概念和ChatGPT的横空出世,标志着智能创作在文字领域已进入了一个新的纪元。ChatGPT可根据用户输入的自然言语指令自动创作新的文本内容,其高质量的生产内容甚至可媲美专家级水平。百度推出的人工智能写作辅助平台“创作大脑”,其语义智能纠错功能识别准确率超95%,能为人类作者提供良好的纠错,提取信息等辅助写作服务。随着数据规模日益庞大及算法模型的不断进步,NLP模型亦呈现高度智能化的发展趋势 智能创作向高度智能化迈进 NLP技术落地应用的智能化程度很大程度上依赖于上游数据语料的质量,只有被标注过的数据,AI算法才能够在此基础上进行训练和学习。同时,数据标注的质量越高,AI学习和产出的结果越精确,AI也就显得越智能。当前中国数据标注行业仅处于发展初期,大多数NLP标注数据仅能够将客服机器人训练到初级认知水平,若要想更高级的认知智能进一步发展,则需要质量更高、针对特定需求提供的NLP标注数据。对于头部企业而言,为了保持自身的竞争优势,追求高质量、符合自身业务需求的NLP标注数据将成为刚性需求 NLP数据服务将进入高质量发 展阶段 NLP产业链上游的主要基础设施包括数据服务、AI芯片、云服务以及算法开源框架等,其中AI芯片和算法框架领域主要由海外厂商主导 中国NLP行业参与者可分为以百度为代表的互联网巨头企业,以科大讯飞为代表的NLP技术型企业,及深耕于垂直领域和细分场景的创业型企业;互联网巨头凭借丰富的客户资源和完善的产品生态位于第一梯队 按照NLP功能实现的不同,可分为文本分析、语音分析、舆情分析、机器翻译、虚拟人物、智能客服等功能应用,下游行业应用场景包括金融风控、零售营销、餐饮住宿等,业务应用场景覆盖语音识别、语义分析、情感分析、文本生产等。整体而言,目前智能客服为NLP最为主要的功能应用,在金融风控、企业服务、餐饮住宿等领域的渗透率最高,在语音识别、文本挖掘、情感分析等业务场景得以广泛应用 中国自然语言处理产业链分析——产业链图谱 中国自然语言处理产业链上游主要为数据服务商、硬件设施厂商和云服务厂商,中游厂商可分为IT互联网企业、AI技术型企业和AI创业型企业三类,下游主要为应用场景,覆盖金融、零售、政务等多个行业 NLP技术产业链图谱 语料库 数据清洗 数据标注 AI芯片 传感器 算法模组 云计算 云存储 云服务器 基于多种场景需求打造云服务器、云计算、云数据库等云端基础架构 处理服务,为NLP模型训练与学习提供支撑 算力的AI芯片,用以支撑算力服务 以垂直领域和细分场景为突破口,研发单一种类的应用场景或行业的NLP产品或解决方案 具备完善的产品生态、丰富的客户资源和较强的产品经验及数据,基于客户需求推动产品创新和落地 凭借其较强的技术优势和客户经验积累,以垂直场