您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[头豹研究院]:2023年中国大模型行研能力市场探析:大模型底层助力,行研智慧前行 - 发现报告
当前位置:首页/行业研究/报告详情/

2023年中国大模型行研能力市场探析:大模型底层助力,行研智慧前行

信息技术2024-04-15常乔雨头豹研究院机构上传
2023年中国大模型行研能力市场探析:大模型底层助力,行研智慧前行

团队介绍 头豹是国内领先的行企研究原创内容平台和创新的数字化研究服务提供商。头豹在中国已布局3大研究院,拥有近百名资深分析师,头豹科创网(www.leadleo.com)拥有20万+注册用户,6,000+行业赛道覆盖及相关研究报告产出。 头豹打造了一系列产品及解决方案,包括数据库服务、行企研报服务、微估值及微尽调自动化产品、财务顾问服务、PR及IR服务,研究课程,以及分析师培训等。诚挚欢迎各界精英与头豹交流合作,请即通过邮件或来电咨询。 报告作者 袁栩聪 首席分析师 oliver.yuan@Leadleo.com 常乔雨 行业分析师 charles.chang@Leadleo.com 头豹研究院 咨询/合作 网址:www.leadleo.com 电话:15999806788(袁先生)电话:18916233114(李先生)深圳市华润置地大厦E座4105室 行业研读| 2023/11 中国:人工智能系列 摘要 自ChatGPT推出后,中国在预训练大模型领域实现了显著进步,涉及顶尖学术机构和科技企业,沙利文联合头豹研究院对12个大模型进行综合评估,以全面了解中国大模型在行研领域的发展与应用 语言大模型是一种基于深度学习的自然语言处理技术,它通过训练大量的文本数据,学习到丰富的语言知识和语义信息。这种模型通常具有数亿甚至数十亿的参数,能够理解和生成人类语言,广泛应用于机器翻译、问答系统、文本摘要等任务。技术发展的轨迹从早期的深度神经网络演进到预训练加微调模式,再发展至当前的预训练加提示训练模式,这标志着其在仿真人类思维方式进行交流方面的进一步突破。 当前,基于自然语言处理技术的预训练大模型已在全球范围内掀起了有史以来最大的人工智能浪潮。自ChatGPT推出以来,仅中国地区就出现了超过80个不同的预训练语言大模型,参与者覆盖中国顶尖的学术研究机构以及互联网科技企业,旨在此番浪潮中拔得先机。过去一年中,中国学术与产业界也取得了实质性的突破,来自商汤的商量、百度的文心一言等前沿大模型不断升级,带动中国大模型产业的发展。 大型语言模型能够显著增强研究报告的编写效率,通过采纳精细化的询问策略,分析师在研究过程中能够实现效率的最优化。此外,这一模型还能够提供全面的文本编辑支持,包括校正、查重、以及文风润色等功能,从而确保分析师提交的工作成果达到更高的质量标准。 基于数字行研解决方案的研究和实践基础,沙利文联合头豹研究院凭借百人分析师团队匿名投票机制,筛选了12个大模型,进行了多维度的综合评估,旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现。 研究目的 了解中国大模型行业的基本发展态势,参与者现状、技术路线以及未来发展趋势,结合大模型基础能力划定测试大模型行研能力的综合测评指标 研究目标 了解中国大模型的发展现状分析中国大模型的发展历程探析中国大模型的产业价值 窥探中国大模型在行研领域的应用梳理中国大模型测评指标 本报告的关键问题 中国大模型现今的发展态势如何? 中国大模型未来的发展趋势如何? 中国大模型在行研领域的应用几何? 哪些企业是中国大模型行业的核心参与者? 大模型如何赋能行研领域价值? 哪些指标是测试大模型在行研领域的重要指标? 监督式深度学习:指通过自动驾驶车辆的传感器在实际道路行驶中收集的各类数据,如车辆位置、速度、周围环境等信息。 特征工程:是指在计算机模拟环境中重现真实世界驾驶情景的技术,用于测试和验证自动驾驶系统的行为和响应。 编码器:自动驾驶中的一种功能,利用传感器数据对车辆周围环境中的对象(如车辆、行人)进行检测、分类和定位。 无标数据:自动驾驶系统中处理数据并确定最佳行驶路径和行为的过程,包括避障、转向和速度控制。 判别式模型:一种传感器技术,通过发射激光并测量其反射时间来构建周围环境的三维地图,为自动驾驶车辆提供精确的距离和形状信息。 生成式模型:一种高精度地图,提供详细的道路、交通标志和地面标记信息,用于自动驾驶车辆的精确定位。 预训练模型:显示道路网络结构的地图,包含路口、道路连接关系等信息,用于自动驾驶车辆的路径规划。 类比迁移:在自动驾驶中指向特定目标或条件导航的技术,如向特定地点或遵循特定路线行驶。 逻辑推理:自动驾驶系统中用于分隔和识别道路标线、车道边缘的技术,确保车辆在车道内正确行驶。 大模型是一种基于深度学习的自然语言处理技术,它通过分析和学习大规模文本数据集合,掌握了丰富的语言知识和深层语义信息。经过三次NLP的技术范式转变,已能够达到类人智能的内容产出水准 大型语言模型通过结合海量数据与自监督学习,逐渐从特定任务转向广泛的通用任务,实现了更加流畅的人机交互,推动了人工智能朝着通用性和人机合作的方向发展 大模型是继工业革命和互联网革命之后的又一重大创新,将在社会劳动力提升、产业发展加速以及科技突破三个关键领域中,显著增强实体产业的发展能力。进一步提升社会产业价值,提高生产效率和能效 中国大模型行业综述——大模型架构综述 大模型是一种基于深度学习的自然语言处理技术,它通过分析和学习大规模文本数据集合,掌握了丰富的语言知识和深层语义信息。经过三次NLP的技术范式转变,已能够达到类人智能的内容产出水准 大模型的架构定义 技术范式 监督式深度学习 预训练+微调 预训练+提示 算法模型 Word2Vec,Elmo(RNN,LSTM) Bert GPT(Deconder-only) (Encoder-Decoder) 主要任务 模型选型+特征工程 特征提取+下游任务改造 预测下一个词 用深度神经啊网络对一段文本序列的概率进行建模 用预训练模型去适配下游的特定任务 将各式的下游任务适配在不同的预训练模型 核心维度 语言大模型经过数次NLP技术的范式转移,已能够达到类人智能的内容产出水准 语言大模型是一种基于深度学习的自然语言处理技术,它通过训练大量的文本数据,学习到丰富的语言知识和语义信息。这种模型通常具有数亿甚至数十亿的参数,能够理解和生成人类语言,广泛应用于机器翻译、问答系统、文本摘要等任务。技术发展的轨迹从早期的深度神经网络演进到预训练加微调模式,再发展至当前的预训练加提示训练模式,这标志着其在仿真人类思维方式进行交流方面的进一步突破。 NLP大模型架构路线 编码器+解码器(Encoder+Decoder) 只用解码器(Decoder-only) 代表模型:GPT、LLaMA、OPT、GLM、LaMDA、GLaM 代表模型:BERT、ELMo、BioBERT、XLM、T5 运行方式:生成式(Generative),通过预测下一个单词在当前语境下出现概率的方式形成结果 运行方式:判别式(Discriminive),通过预测遮蔽词的方式形成结果 优势:能够更好地处理输入和输出之间复杂的映射关系,在机器翻译、文章问答系统表现良好 优势:结构简单,训练和推理的速度更快、具备上下文自监督特性,在纯生成类任务表现良好 中国大模型行业综述——发展历程 大型语言模型通过结合海量数据与自监督学习,逐渐从特定任务转向广泛的通用任务,实现了更加流畅的人机交互,推动了人工智能朝着通用性和人机合作的方向发展 大模型的发展历程,1956-2023 启动期2013-2017 发展期2018-2022 蓬勃发展期2022年至今 萌芽期1956-1992 沉淀期1993-2012 规则阶段 统计学阶段 深度学习阶段 预训练阶段 大模型 由人从数据中 由人转述知识变成机器自动从数据提取知识 从离散匹配发展至Embedding连续匹配,模型参数量显著提高 将可利用数据 将海量无标数据+自建度融合成一个预训练阶段,实现流畅人机协同 从标注拓展至获取信息,归 非标,数据量纳出规则 扩大3-5倍 萌芽期(1956-1992):规则阶段,少量人工标注领域数据和特征工程 规则阶段大致从1956年到1992年,基于规则的机器翻译系统是在内部把各种功能的模块串到一起,由人先从数据中获取知识,归纳出规则,写出来教给机器,然后机器来执行这套规则,从而完成特定任务。 沉淀期(1993-2012):统计机器学习阶段,由人述知识转变成机器自动提取知识 机器翻译系统可拆成语言模型和翻译模型,这里的语言模型与现在的GPT-3/3.5的技术手段一模一样。该阶段相比上一阶段突变性较高,由人转述知识变成机器自动从数据中学习知识,主流技术包括SVM、HMM、MaxEnt、CRF、LM等,当时人工标注数据量在百万级左右。 启动期(2013-2017):深度学习阶段,模型参数显著提高,标注数据量提升至千万 深度学习阶段大致从2013-2018年,相对上一阶段突变性较低,从离散匹配发展到embedding连续匹配,模型变得更大。该阶段典型技术栈包括Encoder-Decoder、LSTM、Attention、Embedding等,标注数据量提升到千万级。 发展期(2018-2022):预训练阶段,微调和预训练导致数据量大幅增长 预训练模型将可利用数据从标注数据拓展到了非标注数据。该阶段系统可分为预训练和微调两个阶段,将预训练数据量扩大3到5倍,典型技术栈包括Encoder-Decoder、Transformer、Attention等。 蓬勃发展期(2023):语言大模型阶段,海量无标数据+自监督实现流畅人机交互 从2023年起,大型语言模型开始专注于更好地理解人指令和遵从人价值观,通过结合海量数据与自监督学习于一个预训练阶段,并将重点由领域迁移转向价值对齐。这一变化使得模型从特定任务转为广泛的通用任务,并以自然语言与人互动,推动人工智能朝通用性和人机合作发展。 中国大模型行业综述——竞争策略 宏观分析下,依托于算法、算力和算据的三大支柱,中国的大模型企业主要采纳两种主要策略来塑造其行业竞争壁垒:首先是市场导向型策略,其次是技术深化型策略 大模型企业的竞争策略 以速度抢占市场份额 思路1 市场需求为中心,产品为导向 以时间建立技术壁垒 思路2 大模型技术积累为核心,探明边界赋业务 从宏观角度看,中国大模型企业在算法、算力和算据三大核心要素的基础上,主要沿两大策略路径构建其行业竞争壁垒:一是市场导向策略,二是技术深耕策略 从宏观层面,算法、算力以及算据的沉淀是企业供给端构建大模型竞争壁垒的核心三大要素。高质量的数据、高效率的算法以及高算力的基础设施是大模型效果与性能的核心保障。 从微观发展层面,中国的大模型企业在建立行业竞争壁垒的路径可以大体归为两类:1)市场导向型:这类企业以市场需求为核心,采用产品导向的策略进行大模型的研发。他们首先依赖深厚的行业经验和对客户需求的敏锐洞察,迅速捕捉行业发展的痛点。接下来,他们依靠强大的产品工程实力,确保在洞察到需求后能迅速交付产品。随着大模型的持续迭代和客户业务场景的演变,这些企业不断优化解决方案,从而在行业中构建坚固的壁垒。典型的代表企业如百度、阿里等。 2)技术深耕型:这类企业注重技术积累,不急于推出产品占领市场,而是投入大量时间和资源探索大模型的技术边界。他们通过长时间的技术沉淀打造出深厚的技术壁垒,然后再将这一技术优势与现有业务结合,以寻找能够为其带来市场份额的机会。腾讯和字节跳动等企业是这一策略的代表。 行业研究通过分析特定行业的定义、竞争格局、市场规模等关键方面,产出深刻洞察和观点。方法论涵盖从宏观的产业层到微观的产品层的分析,对企业战略、政策制定和金融决策等产生显著影响 从基础数据收集到深度分析输出,传统行业研究流程面临着工具革新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重大挑战,共同影响行业研究的产出效率和创新能力,限制了其发展潜力 数字行研解决方案,结合标准化工具和先进的大模型技术,有效克服了传统行业研究的核心制约因素,显著提升研究的精度和效率,并引领行业研