行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

2023年中国AI大模型行研能力评测报告

信息技术2023-12-21沙利文土***

AI智能总结

中国大模型行研能力评测概览

报告背景与目的

背景：随着AI技术的快速发展，尤其是预训练大模型在全球范围内的普及，中国大模型产业展现出蓬勃活力，涌现了众多参与大模型研发的顶尖学术机构和互联网科技企业。为了深入理解这些大模型在行业研究（行研）领域的应用价值与潜力，沙利文与头豹研究院合作，对12个代表性大模型进行了全面评估。

评测方法与指标

评测对象：选取了12个大模型进行综合评估，覆盖了报告撰写能力、基础能力（如逻辑推理、类比迁移等）和行业理解能力三大核心维度。
评测过程：采用了严格的双盲评测流程，由20位资深研究分析师匿名投票，确保评测的公正性。评测覆盖了1,800多个问题，涉及报告撰写能力、基础能力以及行业理解能力的多个子项。
评测依据：依据8-D方法论构建了报告撰写能力的评估框架，包含行业定义、行业分类、发展历程、产业链分析、政策分析、市场规模、竞争格局等模块。

行研能力评测概要

大模型赋能行研：大模型通过自动化内容生成、改写、查询等功能，显著提升了行研的效率和质量。例如，AI辅助文本创作、专家访谈模拟、资料检索优化等，极大减轻了分析师的工作负担。
行业理解与应用：通过14个主要行业的大模型测试，评估了大模型在不同行业中的理解和应用能力，发现大模型在金融业、医疗业、制造业等领域表现出较高的应用价值。
报告撰写能力：评测了大模型在撰写行业报告时的逻辑推理、文本生成、类比迁移、意图理解、知识储备和语境转换等方面的能力，评估结果显示大模型在这些方面均有不俗表现。
模型基础能力：大模型在基础能力方面展示了较强的逻辑推理、类比迁移、文本生成和意图理解能力，同时也显示了在知识储备和语境转换上的潜力。

结果与展望

结果：评测结果显示，中国大模型在行研领域的应用展现出显著的效率提升和质量优化，尤其是在自动化报告生成、信息检索和行业理解方面。
展望：未来，随着大模型技术的进一步发展和完善，预计中国大模型在行研领域的应用将更加广泛，不仅能提升工作效率，还能深化行业洞察，推动行业研究向更高效、精准的方向发展。

总结

本次中国大模型行研能力评测聚焦于大模型在行业研究领域的应用表现，通过详尽的评测流程和指标体系，展现了大模型在提升行研效率、优化报告质量、深化行业理解方面的潜力。随着技术的不断进步和应用场景的扩展，大模型有望成为推动中国乃至全球行研领域创新与发展的重要力量。

2023年中国⼤模型⾏研能⼒评测（摘要版） AI变⾰⾏业创新发展 2023ChinaLargeLanguageModelIndustryResearchEvaluation2023年中国⼤規模モデル産業研究能⼒評価报告提供的任何内容（包括但不限于数据、⽂字、图表、图像等）均系头豹研究院独有的⾼度机密性⽂件（在报告中另⾏标明�处者除外）。未经头豹研究院事先书⾯许可，任何⼈不得以任何⽅式擅⾃复制、再造、传播、�版、引⽤、改编、汇编本报告内容，若有违反上述约定的⾏为发⽣，头豹研究院保留采取法律措施、追究相关⼈员责任的权利。头豹研究院开展的所有商业活动均使⽤“头豹研究院”或“头豹”的商号、商标，头豹研究院⽆任何前述名称之外的其他分⽀机构，也未授权或聘⽤其他任何第三⽅代表头豹研究院开展商业活动。 1 头豹研究院弗若斯特沙利⽂咨询（中国）中能够实现效率的最优化。此外，这⼀模型还能够提供全⾯的⽂本编辑⽀持，包括校正、查重、以及⽂⻛润⾊等功能，从⽽确保分析师提交的⼯作成果达到更⾼的质量标准 ⼤模型技术潮流兴起催⽣中国⼤模型百花⻬放。沙利⽂与头豹研究院联⼿对12个⼤模型进⾏综合评估，以深⼊梳理中国⼤模型在⾏研领域的应⽤表现，为各界提供清晰深⼊的视⻆，以 ⼤模型是⾃然语⾔处理领域中深度学习技术的⾼级应⽤。通过对海量⽂本数据进⾏深度训练，能够吸收和提炼�丰富的语⾔学知识和语义内涵。这种⼤模型通常参数规模庞⼤，动辄数亿甚⾄数⼗亿，从⽽具备理解和⽣成⾃然语⾔的能⼒，与⼈类沟通⼏乎⽆障碍。它的应⽤场景⼴泛，包括但不限于机器翻译、智能问答、⽂本摘要等多个领域。从技术发展的视⻆来看，语⾔模型的演进历程颇具启发性。起初，基于深度神经⽹络进⾏训练；随后，业界逐渐采⽤预训练结合微调的模式来提升性能；⽽如今，最先进的范式已经转向预训练结合提示训练，这⽆疑标志着模拟⼈类思维交流⽅⾯的⼜⼀重⼤突破。这⼀发展轨迹不仅凸显了技术的迅速迭代，更揭示了⾃然语⾔处理领域巨⼤的探索空间和创新潜⼒ ⼤模型能够显著增强研究报告的编写效率，通过采纳精细化的询问策略，分析师在研究过程应对预训练⼤模型引发的⼈⼯智能浪潮当前，⾃然语⾔处理技术中的预训练⼤模型正在全球范围内引领⼀场前所未有的⼈⼯智能⾰命。⾃ChatGPT推�以来，仅在中国地区，涌现�超过80个不同的预训练语⾔⼤模型。这些模型的参与者涵盖了中国顶尖的学术研究机构和领先的互联⽹科技企业，均希望能在这场技术浪潮中抢占先机。值得⼀提的是，过去⼀年⾥，中国学术和产业界也取得了显著进展，商汤的“商量”、百度的“⽂⼼⼀⾔”等⼤模型持续迭代，推动了中国⼤模型产业的快速发展。沙利⽂与头豹研究院合作，基于数字⾏研解决⽅案的研究和实践经验，凭借百⼈分析师团队的匿名投票机制，筛选🎧12个⼤模型进⾏综合评估。这⼀评估旨在全⾯了解并梳理中国⼤模型在⾏研领域的应⽤表现。通过这份专业分析，各界能获取到清晰、深⼊的视⻆，以更好地理解和应对由预训练⼤模型引发的⼈⼯智能浪潮。 www.leadleo.com400-072-5588 1 2 www.leadleo.com400-072-5588 研究⽬的基于数字⾏研解决⽅案的研究和实践基础，头豹研究院联合沙利⽂凭借百⼈分析师团队匿名投票机制，筛选了12个⼤模型，进⾏了多维度的综合评估，旨在全⾯了解并系统梳理中国⼤模型参与者在⾏研领域的应⽤表现。 研究⽬标 •了解中国⼤模型在⾏研领域的应⽤价值 •探析中国⼤模型在⾏研领域的综合表现 •梳理中国⼤模型的参与者现状 •评估中国⼤模型⾏研领域的发展潜⼒ 本报告的关键问题 •参与者发展现状：中国⼤模型的参与者有哪些？在⾏研领域的发展现状如何？ •⾏研应⽤表现：中国⼤模型在⾏业研究领域的实际应⽤表现如何？ •报告撰写能⼒：中国⼤模型在撰写⾏业研究报告⽅⾯的表现能⼒如何？ •模型基础能⼒：中国⼤模型逻辑推理能⼒、类⽐迁移能⼒等基础能⼒表现如何？ •⾏业理解能⼒：⽬前中国⼤模型在不同⾏业下的理解能⼒以及表现如何？ 3 中国：⼈⼯智能系列 4 ⼤模型评测|2023/12 Chapter1 ⼤模型⾏研能⼒评测背景及⽅法 本次⼤模型⾏研能⼒测试覆盖1,800+题⽬，由20⼈资深研究分析师团队经过严格的双盲评测流程，围绕研究报告撰写能⼒，模型基础能⼒以及⾏业综合理解能⼒进⾏综合评测 评测⽅法通过双盲机制最⼤程度保证公允性，每名测试⼈员会随机分配N个模型进⾏答案搜集，彼此在答案搜集期间互相禁⽌分享信息，以保持在答案评测阶段的公允性；在评测阶段，每个问题相对应的12个模型答案顺序会随机打乱，保证评测⼈员对答案不存在任何偏⻅ 本次⼤模型⾏研能⼒评测分为三个核⼼模块，分别为报告撰写能⼒、模型基础能⼒以及⾏业理解能⼒。报告撰写为本次评测的核⼼能⼒，基础能⼒以及⾏业理解能⼒为衍⽣能⼒，顾赋予40%/30%/30%的评分权重 本次⼤模型⾏业研究能⼒评测截⽌于11⽉30⽇，所选模型基于⽬前开放可⽤的范围。本次评测未涵盖企业尚未开放的⼤模型，评测结果仅反映当前公开可⽤模型的数据 www.leadleo.com400-072-5588 •⾏业研究通过分析特定⾏业的定义、竞争格局、市场规模等关键⽅⾯，产出深刻洞察和观点。⽅法论涵盖从宏观的产业层到微观的产品层的分析，对企业战略、政策制定和⾦融决策等产⽣显著影响中国⼤模型⾏研能⼒评测——⾏研背景概述⾏研背景概述价值体现政务服务⾦融决策教育培训新闻传媒… 研究路径⾏业分类发展历程⾏业特征产业链分析市场规模政策分析竞争格局千⾏百业互联⽹⾦融医疗教育制造零售泛娱乐房地产农林牧渔采矿旅游 … ⾏研价值链⾏业定义企业规划 ⾏业研究通过详尽⽅法论输�价值观点，对企业策略、⾦融决策等领域的价值显著⾏业研究是深⼊探讨分析特定⾏业的发展现状和市场动态的全⾯过程，包含⾏业定义、分类、竞争格局、市场容量等关键维度。分析师通过分析，⽣成具有深度的洞察和价值观点，对企业战略规划、政策制定、⾦融投资决策和教育培训等多个领域产⽣重要影响。⾏研范围外部维度内部维度政策经济环境法律发展历程产业链分析发展特征市场规模竞争格局产业层⾏业层产品层重要程度⾼重要程度低 ⾏业研究涵盖从宏观的产业层到微观的产品层，各层级决定着相应的研究⽅法，研究⽅法论囊括外部宏观因素和内部微观细节的全⾯分析在⾏业研究中，产业层、⾏业层和产品层各⾃代表宏观经济的不同层次：产业层包含具相似特征的⾏业群体，⾏业层着重于特定⾏业的市场和企业情况，⽽产品层深⼊到具体产品或服务的设计、功能和市场定位。研究⽅法论根据这些层级的宏观到微观差异⽽有所不同，外部维度考虑政策、经济、环境等因素，⽽内部维度则包括发展历史、产业链分析等更细致的⽅⾯。 •从基础数据收集到深度分析输出，传统⾏业研究的流程⾯临着⼯具⾰新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重⼤挑战，共同影响⾏业研究的产出效率和创新能⼒，限制了其发展潜⼒⼀⼿数据⾏业专家访谈、消费者调研（问卷，圆桌）、⾃⾏监测数据…… 建模⾏业规模与预测模型传统⼯具Excel 撰写⾏业定义、特征、分类、历史、政策、中国⼤模型⾏研能⼒评测——传统⾏研发展痛点分析产� 调研⼆⼿数据统计局数据、⽂献、⽹⻚、垂直媒体、招股书、第三⽅研报、专业数据库…… 分析制图产业链、竞争格局研究成果研究报告、演讲稿、招股书⾏业章节、视频……. 传统⾏研发展痛点 1⽣产⼯具停滞PPT和Word仍是⽣产核⼼⼯具，20年来没有更新新的⾏研⽣产⼯具 2团队知识难以复⽤⾏业⼈员流动性较⼤，新⼈成⻓周期较⻓，分析师掌握的经验和知识复⽤性差 3溯源难考证⾯对海量信息和时间成本，信息来源难以考证，信息合规⽆法全⾯保障 4质量把控难度⾼质控⼈员缺乏专业撰写技能，⽽专业分析师则通常⽆暇进⾏⼴泛质控⾏研发展痛点 传统⾏业研究在⼯具更新、知识复⽤、信息溯源和质量控制⽅⾯⾯临显著挑战，影响其效率和准确性传统⾏业研究的产�流程包括三个步骤：⾸先是基础调研，聚焦于⼀⼿和⼆⼿⾏业数据的收集；其次是数据加⼯，涉及整理逻辑、验证数据真实性，并对关键信息进⾏可视化处理；最后是产�结果，确保全⽂逻辑⼀致、可视化清晰并且观点合理。在实际操作中，⾏业研究⾯临多个挑战：1）⼯具更新停滞，⾃互联⽹兴起以来，⾏研主要依赖⽹络检索和办公软件，近20年未⻅显著⾰新；2）团队知识难以复⽤，由于⾼⼈员流动性和新成员培养周期⻓，分析师的经验和知识传承困难；3）信息溯源和合规性考量复杂，在应对海量信息和时间成本压⼒下，信息来源和合规性难以全⾯保障；4）质量控制难度⾼，质控⼈员缺乏专业撰写技能，同时专业分析师缺乏时间进⾏⼴泛质控，导致质量监控极为困难。这些核⼼挑战共同影响着⾏研的产�效率和创新，阻碍⾏研进⼀步发展。 •数字⾏研解决⽅案，结合标准化⼯具和先进的⼤模型技术，有效克服了传统⾏业研究的核⼼制约因素，显著提升研究的精度和效率，并引领⾏业研究进⼊⼀个效率更⾼和质量更优的新产出范式中国⼤模型⾏研能⼒评测——数字⾏研⾰新数字⾏研⾰新（以头豹脑⼒擎为例）数字⾏研全⾯赋能信息调研综合分析结果呈现开源 Web3.0 协同创作词条接⼊智能技术⼯具提效辅助分析师 AI ⽣成 AI 续写协同数字头豹写作系统⾝份“脑⼒擎” 赋能头豹研报产�提质增效智能 AIGC ⽂本创作 AI 改写可信⾼效 AI 赋能 AI 检索标准体系化培训⼯具创作沉淀，数据资产化智能AI 研报⽣成审核 数字化⾏研解决⽅案通过标准化⼯具和⼤模型技术，解决了⾏业研究的核⼼难题，提⾼了研究质量和效率，为⾏业分析带来了⾼效、精准的新范式数字化⾏研解决⽅案为⾏业研究带来范式⾰新。该系统通过引⼊⼀系列标准化⼯具，如精准的信息溯源系统和写作规范，极⼤降低了⾏业研究的⻔槛，提升了撰写效率，并简化了质量控制流程。此外，数字⾏研基于⼤模型的强⼤底层⽀持，为分析师提供AI辅助⼯具，包括专家访谈、智能检索、查重、校对和改写功能，有效减少信息检索的难度，提升⽂本的准确性和撰写效率，同时加速分析师的专业成⻓。数字⾏研解决⽅案不仅解决了传统⾏业研究中的关键痛点，如信息溯源困难、严峻的质控挑战、知识低复⽤率和⼯具更新滞后，还借助⼤模型技术推动⾏业研究质量和分析师成⻓速度，引领⾏业研究向更⾼效、精准的新范式转变。 •⼤模型在数字⾏业研究中扮演核⼼⻆⾊，其功能特性极⼤提升了研究的效率和质量。本研究聚焦于挖掘中国⼤模型在⾏业研究中的实际应⽤和优势，了解⼤模型当前的能⼒边界，以推动⾏研领域的创新与变⾰中国⼤模型⾏研能⼒评测——⼤模型赋能⾏研⼤模型赋能⾏研⼤模型⾏研赋能运⽤⼤模型的互联⽹检索访问功能，结合精准的提问策略，帮助分析师定位关键信息，从⽽提升资料搜索效率超60% AI资料检索通过使⽤⼤模型的⽂字⽣成功能，结合恰当的提问问题，让⼤模型帮助产�结构化内容，提⾼研报的产�效率50% AI内容⽣成利⽤⼤模型的改写、续写和查重功能，可以显著减少错别字、病句和重复内容，从⽽提升⽂本质量和可读性，同时减少分析师在⽂本检查上的时间投⼊，降低超过70% AI⽂字校对通过利⽤AI⼤模型进⾏⾏业专家访谈，分析师可以迅速掌握⾏业的核⼼信息和精确的定义、分类，从⽽将初期⾏业研究阶段的时间缩短30% AI专家访谈 ⼤模型在数字⾏业研究中扮演核⼼⻆⾊，其功能特性极⼤提升了研究的效率和质量。本研究主要聚焦于中国⼤模型在⾏业研究中的实际应⽤和优势，知晓⼤模型的能⼒边界，旨在推动⾏研领域的创新与变⾰作为数字⾏研的关键⽀撑，⼤模型通过其创作、⽣成、改写和检索等核⼼功能，全⽅位推动⾏业研究向前发展。⾸先，⼤模型扮演第三⽅AI专家⻆⾊，协助分析师在研究初期进⾏框架搭建和内容创作，有效减

点击免费查看完整报告