您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[沙利文]:2023年中国AI大模型行研能力评测报告 - 发现报告
当前位置:首页/行业研究/报告详情/

2023年中国AI大模型行研能力评测报告

信息技术2023-12-22沙利文土***
AI智能总结
查看更多
2023年中国AI大模型行研能力评测报告

2023年中国⼤模型 ⾏研能⼒评测 (摘要版) AI变⾰⾏业创新发展 2023ChinaLargeLanguageModelIndustryResearchEvaluation2023年中国⼤規模モデル産業研究能⼒評価 报告提供的任何内容(包括但不限于数据、⽂字、图表、图像等)均系头豹研究院独有的⾼度机密性⽂件(在报告中另⾏标明�处者除外)。未经头豹研究院事先书⾯许可,任何⼈不得以任何⽅式擅⾃复制、再造、传播、�版、引⽤、改编、汇编本报告内容,若有违反上述约定的⾏为发⽣,头豹研究院保留采取法律措施、追究相关⼈员责任的权利。头豹研究院开展的所有商业活动均使⽤“头豹研究院”或“头豹”的商号、商标,头豹研究院⽆任何前述名称之外的其他分⽀机构,也未授权或聘⽤其他任何第三⽅代表头豹研究院开展商业活动。 1 头豹研究院 弗若斯特沙利⽂咨询(中国) 中能够实现效率的最优化。此外,这⼀模型还能够提供全⾯的⽂本编辑⽀持,包括校正、查 重、以及⽂⻛润⾊等功能,从⽽确保分析师提交的⼯作成果达到更⾼的质量标准 ⼤模型技术潮流兴起催⽣中国⼤模型百花⻬放。沙利⽂与头豹研究院联⼿对12个⼤模型进⾏ 综合评估,以深⼊梳理中国⼤模型在⾏研领域的应⽤表现,为各界提供清晰深⼊的视⻆,以 ⼤模型是⾃然语⾔处理领域中深度学习技术的⾼级应⽤。通过对海量⽂本数据进⾏深度训练,能够吸收和提炼�丰富的语⾔学知识和语义内涵。这种⼤模型通常参数规模庞⼤,动辄数亿甚⾄数⼗亿,从⽽具备理解和⽣成⾃然语⾔的能⼒,与⼈类沟通⼏乎⽆障碍。它的应⽤场景 ⼴泛,包括但不限于机器翻译、智能问答、⽂本摘要等多个领域。从技术发展的视⻆来看,语⾔模型的演进历程颇具启发性。起初,基于深度神经⽹络进⾏训练;随后,业界逐渐采⽤预训练结合微调的模式来提升性能;⽽如今,最先进的范式已经转向预训练结合提示训练,这⽆疑标志着模拟⼈类思维交流⽅⾯的⼜⼀重⼤突破。这⼀发展轨迹不仅凸显了技术的迅速迭代,更揭示了⾃然语⾔处理领域巨⼤的探索空间和创新潜⼒ ⼤模型能够显著增强研究报告的编写效率,通过采纳精细化的询问策略,分析师在研究过程 应对预训练⼤模型引发的⼈⼯智能浪潮 当前,⾃然语⾔处理技术中的预训练⼤模型正在全球范围内引领⼀场前所未有的⼈⼯智能⾰命。 ⾃ChatGPT推�以来,仅在中国地区,涌现�超过80个不同的预训练语⾔⼤模型。这些模型的参与者涵盖了中国顶尖的学术研究机构和领先的互联⽹科技企业,均希望能在这场技术浪潮中抢占先机。值得⼀提的是,过去⼀年⾥,中国学术和产业界也取得了显著进展,商汤的“商量”、百度的“⽂⼼⼀⾔”等⼤模型持续迭代,推动了中国⼤模型产业的快速发展。 沙利⽂与头豹研究院合作,基于数字⾏研解决⽅案的研究和实践经验,凭借百⼈分析师团队的匿名投票机制,筛选🎧12个⼤模型进⾏综合评估。这⼀评估旨在全⾯了解并梳理中国⼤模型在⾏研领域的应⽤表现。通过这份专业分析,各界能获取到清晰、深⼊的视⻆,以更好地理解和应对由预训练⼤模型引发的⼈⼯智能浪潮。 www.leadleo.com400-072-5588 1 2 www.leadleo.com400-072-5588 研究⽬的 基于数字⾏研解决⽅案的研究和实践基础,头豹研究院联合沙利⽂凭借百⼈分析师团队匿名投票机制,筛选了12个⼤模型,进 ⾏了多维度的综合评估,旨在全⾯了解并系统梳理中国⼤模型参与者在⾏研领域的应⽤表现。 研究⽬标 •了解中国⼤模型在⾏研领域的应⽤价值 •探析中国⼤模型在⾏研领域的综合表现 •梳理中国⼤模型的参与者现状 •评估中国⼤模型⾏研领域的发展潜⼒ 本报告的关键问题 •参与者发展现状:中国⼤模型的参与者有哪些?在⾏研领域的发展现状如何? •⾏研应⽤表现:中国⼤模型在⾏业研究领域的实际应⽤表现如何? •报告撰写能⼒:中国⼤模型在撰写⾏业研究报告⽅⾯的表现能⼒如何? •模型基础能⼒:中国⼤模型逻辑推理能 ⼒、类⽐迁移能⼒等基础能⼒表现如何? •⾏业理解能⼒:⽬前中国⼤模型在不同 ⾏业下的理解能⼒以及表现如何? 3 中国:⼈⼯智能系列 4 ⼤模型评测|2023/12 Chapter1 ⼤模型⾏研能⼒评测背景及⽅法 本次⼤模型⾏研能⼒测试覆盖1,800+题⽬,由20⼈资深研究 分析师团队经过严格的双盲评测流程,围绕研究报告撰写能 ⼒,模型基础能⼒以及⾏业综合理解能⼒进⾏综合评测 评测⽅法通过双盲机制最⼤程度保证公允性,每名测试⼈员会随机分配N个模型进⾏答案搜集,彼此在答案搜集期间互相禁⽌分享信息,以保持在答案评测阶段的公允性;在评测阶段,每个问题相对应的12个模型答案顺序会随机打乱,保证评测⼈员对答案不存在任何偏⻅ 本次⼤模型⾏研能⼒评测分为三个核⼼模块,分别为报告撰写能⼒、模型基础能⼒以及⾏业理解能⼒。报告撰写为本次评测的核⼼能⼒,基础能⼒以及⾏业理解能⼒为衍⽣能⼒,顾赋予40%/30%/30%的评分权重 本次⼤模型⾏业研究能⼒评测截⽌于11⽉30⽇,所选模型基于⽬前开放可⽤的范围。本次评测未涵盖企业尚未开放的⼤模型,评测结果仅反映当前公开可⽤模型的数据 www.leadleo.com400-072-5588 •⾏业研究通过分析特定⾏业的定义、竞争格局、市场规模等关键⽅⾯,产出深刻洞察和观点。⽅法论涵盖从宏观的产业层到微观的产品层的分析,对企业战略、政策制定和⾦融决策等产⽣显著影响 中国⼤模型⾏研能⼒评测——⾏研背景概述 ⾏研背景概述 价值体现 政务服务⾦融决策教育培训新闻传媒… 研究路径 ⾏业分类 发展历程 ⾏业特征 产业链分析 市场规模 政策分析 竞争格局 千⾏百业 互联⽹ ⾦融 医疗 教育 制造 零售 泛娱乐 房地产 农林牧渔 采矿 旅游 … ⾏研价值链 ⾏业定义 企业规划 ⾏业研究通过详尽⽅法论输�价值观点,对企业策略、⾦融决策等领域的价值显著 ⾏业研究是深⼊探讨分析特定⾏业的发展现状和市场动态的全⾯过程,包含⾏业定义、分类、竞争格局、市场容量等关键维度。分析师通过分析,⽣成具有深度的洞察和价值观点,对企业战略规划、政策制定、⾦融投资决策和教育培训等多个领域产⽣重要影响。 ⾏研范围 外部维度 内部维度 政策 经济 环境 法律 发展历程 产业链分析 发展特征 市场规模 竞争格局 产业层⾏业层产品层 重要程度⾼ 重要程度低 ⾏业研究涵盖从宏观的产业层到微观的产品层,各层级决定着相应的研究⽅法,研究⽅法论囊括外部宏观因素和内部微观细节的全⾯分析 在⾏业研究中,产业层、⾏业层和产品层各⾃代表宏观经济的不同层次:产业层包含具相似特征的⾏业群体,⾏业层着重于特定⾏业的市场和企业情况,⽽产品层深⼊到具体产品或服务的设计、功能和市场定位。研究⽅法论根据这些层级的宏观到微观差异⽽有所不同,外部维度考虑政策、经济、环境等因素,⽽内部维度则包括发展历史、产业链分析等更细致的⽅⾯。 •从基础数据收集到深度分析输出,传统⾏业研究的流程⾯临着⼯具⾰新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重⼤挑战,共同影响⾏业研究的产出效率和创新能⼒,限制了其发展潜⼒ ⼀⼿数据⾏业专家访谈、消费者调研(问卷,圆桌)、⾃⾏监测数据…… 建模 ⾏业规模与预测模型传统⼯具Excel 撰写⾏业定义、特征、分类、历史、政策、 中国⼤模型⾏研能⼒评测——传统⾏研发展痛点 分析 产� 调研 ⼆⼿数据 统计局数据、⽂献、⽹⻚、垂直媒体、招股书、第三⽅研报、专业数据库…… 分析制图产业链、竞争格局 研究成果 研究报告、演讲稿、招股书⾏业章节、视频……. 传统⾏研发展痛点 1⽣产⼯具停滞PPT和Word仍是⽣产核⼼⼯具,20年来没有更新新的⾏研⽣产⼯具 2团队知识难以复⽤ ⾏业⼈员流动性较⼤,新⼈成⻓周期较⻓,分析师掌握的经验和知识复⽤性差 3溯源难考证 ⾯对海量信息和时间成本,信息来源难以考证,信息合规⽆法全⾯保障 4质量把控难度⾼质控⼈员缺乏专业撰写技能,⽽专业分析师则通常⽆暇进⾏⼴泛质控 ⾏研发展痛点 传统⾏业研究在⼯具更新、知识复⽤、信息溯源和质量控制⽅⾯⾯临显著挑战,影响其效率和准确性 传统⾏业研究的产�流程包括三个步骤:⾸先是基础调研,聚焦于⼀⼿和⼆⼿⾏业数据的收集;其次是数据加⼯,涉及整理逻辑、验证数据真实性,并对关键信息进⾏可视化处理;最后是产�结果,确保全⽂逻辑⼀致、可视化清晰并且观点合理。在实际操作中, ⾏业研究⾯临多个挑战:1)⼯具更新停滞,⾃互联⽹兴起以来,⾏研主要依赖⽹络检索和办公软件,近20年未⻅显著⾰新;2)团队知识难以复⽤,由于⾼⼈员流动性和新成员培养周期⻓,分析师的经验和知识传承困难;3)信息溯源和合规性考量复杂,在应对海量信息和时间成本压⼒下,信息来源和合规性难以全⾯保障;4)质量控制难度 ⾼,质控⼈员缺乏专业撰写技能,同时专业分析师缺乏时间进⾏⼴泛质控,导致质量监 控极为困难。这些核⼼挑战共同影响着⾏研的产�效率和创新,阻碍⾏研进⼀步发展。 •数字⾏研解决⽅案,结合标准化⼯具和先进的⼤模型技术,有效克服了传统⾏业研究的核⼼制约因素,显著提升研究的精度和效率,并引领⾏业研究进⼊⼀个效率更⾼和质量更优的新产出范式 中国⼤模型⾏研能⼒评测——数字⾏研⾰新 数字⾏研⾰新(以头豹脑⼒擎为例) 数字⾏研全⾯赋能 信息调研综合分析结果呈现 开源 Web3.0 协同创 作词条 接⼊智能技术 ⼯具提效 辅助分析师 AI ⽣成 AI 续写 协同 数字头豹写作系统 ⾝份“脑⼒擎” 赋能头豹研报产�提质增效 智能 AIGC ⽂本创作 AI 改写 可信 ⾼效 AI 赋能 AI 检索 标准 体系化培训⼯具 创作沉淀,数据资产化 智能AI 研报⽣成审核 数字化⾏研解决⽅案通过标准化⼯具和⼤模型技术,解决了⾏业研究的核⼼难题,提⾼了研究质量和效率,为⾏业分析带来了⾼效、精准的新范式 数字化⾏研解决⽅案为⾏业研究带来范式⾰新。该系统通过引⼊⼀系列标准化⼯具,如精准的信息溯源系统和写作规范,极⼤降低了⾏业研究的⻔槛,提升了撰写效率,并简化了质量控制流程。此外,数字⾏研基于⼤模型的强⼤底层⽀持,为分析师提供AI辅助 ⼯具,包括专家访谈、智能检索、查重、校对和改写功能,有效减少信息检索的难度, 提升⽂本的准确性和撰写效率,同时加速分析师的专业成⻓。 数字⾏研解决⽅案不仅解决了传统⾏业研究中的关键痛点,如信息溯源困难、严峻的质控挑战、知识低复⽤率和⼯具更新滞后,还借助⼤模型技术推动⾏业研究质量和分析师成⻓速度,引领⾏业研究向更⾼效、精准的新范式转变。 •⼤模型在数字⾏业研究中扮演核⼼⻆⾊,其功能特性极⼤提升了研究的效率和质量。本研究聚焦于挖掘中国⼤模型在⾏业研究中的实际应⽤和优势,了解⼤模型当前的能⼒边界,以推动⾏研领域的创新与变⾰ 中国⼤模型⾏研能⼒评测——⼤模型赋能⾏研 ⼤模型赋能⾏研 ⼤模型 ⾏研赋能 运⽤⼤模型的互联⽹检索访问功能,结合精准的提问策略,帮助分析师定位关键信息,从⽽提升资料搜索效率超60% AI资料检索 通过使⽤⼤模型的⽂字 ⽣成功能,结合恰当的提问问题,让⼤模型帮助产�结构化内容,提 ⾼研报的产�效率50% AI内容⽣成 利⽤⼤模型的改写、续写和查重功能,可以显著减少错别字、病句和重复内容,从⽽提升⽂本质量和可读性,同时减少分析师在⽂本检查上的时间投⼊,降低超过70% AI⽂字校对 通过利⽤AI⼤模型进⾏ ⾏业专家访谈,分析师可以迅速掌握⾏业的核 ⼼信息和精确的定义、分类,从⽽将初期⾏业研究阶段的时间缩短30% AI专家访谈 ⼤模型在数字⾏业研究中扮演核⼼⻆⾊,其功能特性极⼤提升了研究的效率和质量。本研究主要聚焦于中国⼤模型在⾏业研究中的实际应⽤和优势,知晓⼤模型的能⼒边界,旨在推动⾏研领域的创新与变⾰ 作为数字⾏研的关键⽀撑,⼤模型通过其创作、⽣成、改写和检索等核⼼功能,全⽅位推动⾏业研究向前发展。⾸先,⼤模型扮演第三⽅AI专家⻆⾊,协助分析师在研究初期进⾏框架搭建和内容创作,有效减