行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2023年中国大模型评测（一）：行研创作新范式

信息技术 2024-04-12 常乔雨头豹研究院机构上传

本报告旨在了解中国语言大模型的发展演变以及竞争态势，通过对大模型进行深度评测来梳理中国语言大模型的市场现状。报告撰写能力评测中，商汤商量、讯飞星火以及文心一言3.5占据前三甲，其余模型表现各有千秋。行研基础能力评测中，商汤商量、GPT3.5和文心一言3.5表现稳定，各自在不同方面领先。

团队介绍头豹是国内领先的行企研究原创内容平台和创新的数字化研究服务提供商。头豹在中国已布局3大研究院，拥有近百名资深分析师，头豹科创网(www.leadleo.com)拥有20万+注册用户，6,000+行业赛道覆盖及相关研究报告产出。头豹打造了一系列产品及解决方案，包括数据库服务、行企研报服务、微估值及微尽调自动化产品、财务顾问服务、PR及IR服务，研究课程，以及分析师培训等。诚挚欢迎各界精英与头豹交流合作，请即通过邮件或来电咨询。报告作者袁栩聪首席分析师 oliver.yuan@Leadleo.com 常乔雨行业分析师 charles.chang@Leadleo.com 头豹研究院咨询/合作网址：www.leadleo.com 电话：15999806788（袁先生）电话：18916233114（李先生）深圳市华润置地大厦E座4105室行业研读| 2023/11 中国：人工智能系列摘要在报告撰写评测中，各平台表现各异，其中商量整体表现稳定且领先，而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多行研基础能力从AI辅助文本创作角度出发，结合大模型基础核心能力，归总出对于行业研究报告撰写角度最重要的六大能力维度。在报告撰写能力评测中，商量整体表现稳定，超过均分。文心一言3.5和星火有波动；讯飞在分类任务中表现佳，天工在多个领域表现优秀但产业链不足。GPT3.5因信息库旧而在竞争和市场方面失分。智谱清言和通义千问整体稳定，各有突出领域。百川在政策方面波动大，紫东太初和雅意表现相似但在特定模块有所不足。Minimax在多数模块略高于均分，但在某些重要领域失分严重。报告撰写能力是沙利文及头豹行企研究的全面系统的研究方法论，专用于行业的深入分析。结合详实的数据和精准的分析，显著提升行业研究内容的清晰度和数据的丰富性。在报告撰写能力板块的表现中，商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋，例如紫东在行业特征的归纳总结能力较强，Minimax则在发展历程和产业链分析细分维度表现优秀。在行研基础能力评测维度中，商汤商量、GPT3.5、以及文心一言3.5表现稳定性强，在单一模块能力各有领先大模型在行研基础能力的表现差异显著，商汤商量、GPT3.5以及文心一言3.5占据前三甲，领先幅度较大。排名靠后的模型虽综合评分低，但细分模块表现优异，例如智谱清言和百川在意图理解能力高于均分。在行研基础能力评测中，商汤商量、GPT3.5和文心一言3.5表现稳定，各自在不同方面领先。GPT3.5在逻辑推理上领先，商汤商量擅长文字生成和语境转换，文心一言3.5优于意图理解。天工、智谱清言和百川波动性大，表现不均。讯飞星火、腾讯混元和Minimax表现平稳但有波动，特别是Minimax在文字生成上表现较弱。通义千问、紫东太初和雅意整体较弱，特别是在逻辑推理和意图理解上，显示出与领先模型在参数量和微调方面的差距。研究目的了解中国语言大模型的发展演变以及竞争态势，通过对大模型进行深度评测来梳理中国语言大模型的市场现状研究目标了解中国大模型在报告撰写能力的表现了解中国大模型在行研基础能力的表现本报告的关键问题报告撰写能力：中国语言大模型在行企研究报告的撰写能力几何？在竞争格局、市场规模、产业链分析等高难度模块的竞争表现如何？模型基础能力：中国语言大模型的逻辑推导能力、类比迁移能力等基础能力表现如何？在报告撰写能力板块的表现中，商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋，例如紫东在行业特征的归纳总结能力较强，Minimax则在发展历程和产业链分析细分维度表现优秀在报告撰写评测中，不同平台表现存在显著差异。例如，商量凭借其稳定性和在关键模块的领先优势显著。而GPT3.5和百川因信息库更新不足及答案完整性与准确性问题，在高权重模块中失分较多行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低，重点聚集在信息搜集的准确度。在低难度撰写模块中，12大模型没有显著的差距，但部分模型由于在特定模块中无法回答，因此失分严重商汤商量、讯飞星火以及文心一言3.5是模型报告撰写能力排名前三甲。在报告撰写的细分模块中，行业定义和分类的平均得分较高，撰写难度相对较低。产业链、竞争格局和市场规模得分较低，撰写难度大大模型报告撰写能力评测结果——报告撰写能力评测结果在报告撰写能力板块的表现中，商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋，例如紫东在行业特征的归纳总结能力较强，Minimax则在发展历程和产业链分析细分维度表现优秀大模型报告撰写能力评测结果行业特征发展历程产业链市场规模政策分析竞争格局排名模型名称总得分定义分类商汤商量讯飞星火文心一言3.5 天工 GPT3.5 腾讯混元智谱清言百川通义千问紫东太初 Minimax 雅意得分高得分低报告撰写能力由模型在定义、分类、行业特征、发展历程、产业链、市场规模、政策分析以及竞争格局8D模块的表现综合评定而成模型在报告撰写评测的表现中，商量、讯飞星火、以及文心一言3.5是表现TOP3的模型，其中商汤商量在8D模块均表现强劲，讯飞星火在高难度撰写板块展现一定实力根据大模型报告撰写能力综合热力矩阵图可以看出商汤商量是综合能力最强的模型，且在各个板块的表现稳定处在前列位置。讯飞星火虽在发展历程失分较为严重，但在市场规模、政策分析以及竞争格局的高难度撰写板块中表现强劲。大模型报告撰写能力评测结果——报告撰写能力表现在报告撰写评测中，不同平台表现存在显著差异。例如，商量凭借其稳定性和在关键模块的领先优势显著。而GPT3.5和百川因信息库更新不足及答案完整性与准确性问题，在高权重模块中失分较多大模型报告撰写能力评测结果完整版登录www.leadleo.com 搜索《2023年中国大模型行研能力测评（一）：行研创作新范式》产业链定义发展历程分类竞争格局市场规模特征政策分析商汤商量讯飞星火文心一言天工 GPT3.5(参考模型）腾讯混元智谱百川通义千问紫东太初 Minimax 中科闻歌在报告撰写评测中，各平台表现各异，其中商量整体表现稳定且领先，而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多在报告撰写能力评测中，商量的整体表现稳定，在8D模块中均超过均分，领先于其他。文心一言3.5和星火表现出波动，例如讯飞在发展历程和竞争格局低于均分，但在分类任务中表现最佳。天工在发展历程、市场规模和定义方面表现优秀，但在产业链方面略显不足。GPT3.5在竞争格局和市场规模中失分较多，主要因为其信息库较旧，无法提供有效价值信息，影响了其在报告撰写的综合表现。智谱清言和通义千问的综合表现稳定，在8D各模块中与均分相近，其中智谱清言在政策分析方面表现优异，通义千问在特征环节表现突出。百川的表现波动较大，尤其是在政策模块由于无法给出答案，导致失分严重，影响了整体均分。紫东太初和雅意的表现相似，除在特征和政策分析模块外，其他分值走势几乎一致。Minimax在8D模块中五项略高于均分，但在产业链和竞争格局这两个高权重模块中失分严重。中国大模型行研能力评测分析——高阶难度模块表现产业链分析是8D模块中最具挑战性和权重最高的部分，考验大模型在行业定义、信息检索和价值挖掘方面的能力，其中商汤商量、文心一言3.5和讯飞星火凭借出色的知识储备和逻辑推理表现优异大模型产业链分析能力评测结果产业链分析产业链均值：5.80 完整版登录www.leadleo.com 搜索《2023年中国大模型行研能力测评（一）：行研创作新范式》产业链分析作为8D模块中最具挑战性且权重最高的部分，考验着大模型在定义行业、信息检索和价值挖掘方面的综合能力，其中商汤商量、文心一言3.5和讯飞星火因其优秀的知识储备和逻辑推理能力在这一模块中表现突出产业链分析是高阶难度撰写模块之一，权重在评测分数中占到了17.5%，是8D模块中评测得分权重最大的模块。其复杂性源于需要大模型在三个关键维度进行深入的信息处理：首先是对特定行业产业链的上中下游及其参与者的精确界定；其次是在确认主体后，筛选出与各环节相关的关键信息；最后是对收集到的信息进行深度加工，探索产业链的价值流向和影响力，以提炼出对该行业宏观层面的关键见解。这一系列步骤要求模型具备高度的信息检索和逻辑归纳能力，且随着过程的深入，难度逐渐增大。大模型在产业链分析表现均分为5.8分，是8D模块的第二低分，侧面反映了其内容产出的难度。其中，商汤商量、文心一言3.5、百川、雅意、讯飞星火以及GPT3.5是表现优异的模型，综合表现高于均分。商汤商量、文心一言3.5以及讯飞星火得益于其优秀的知识储备能力以及逻辑推理归纳能力，在这一模块表现优秀。中国大模型行研能力评测分析——低阶难度模块表现行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低，重点聚集在信息搜集的准确度。在低难度撰写模块中，12大模型没有显著的差距，但部分模型由于在特定模块中无法回答，因此失分严重大模型报告撰写能力低阶难度模块评测结果行业定义行业分类定义均值：6.48 分类均值：6.93 发展历程政策分析发展历程均值：6.52 政策分析均值：6.12 完整版登录www.leadleo.com 搜索《2023年中国大模型行研能力测评（一）：行研创作新范式》模型在低难度报告撰写模块的表现中，商汤商量和讯飞星火表现最为优秀，在四个模块的评测得分均显著高于均分行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低，这四大模块重点落在信息搜集的准确度，对归纳推理的整体要求较低，更多考察模型的知识库丰富性以及把握信息准确性的能力。在低难度撰写模块中，12大模型整体的表现较为平均，模型之间没有显著的差距。但部分模型在发展历程和政策分析模块中无法给出明确的答案，从而导致失分情况严重，对最终均分影响较大。中国大模型行研能力评测分析——报告撰写能力分布商汤商量、讯飞星火以及文心一言3.5是模型报告撰写能力排名前三甲。在报告撰写的细分模块中，行业定义和分类的平均得分较高，撰写难度相对较低。产业链、竞争格局和市场规模得分较低，撰写难度大大模型报告撰写能力分布智谱AI：清言百川：百川产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局阿里云：通义千问武汉人工智能研究院：紫东太初产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局中科闻歌：雅义名之梦：MiniMax 产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局大模型在行研基础能力的表现差异显著，商汤商量、GPT3.5以及文心一言3.5占据前三甲，领先幅度较大。排名靠后的模型虽综合评分低，但细分模块表现优异，例如智谱清言和百川在意图理解能力高于均分在行研基础能力评测中，GPT3.5、商汤商量和文心一言3.5稳定领先，展现出各自在逻辑推理、文字生成和意图理解的强项，而其他模型如天工、智谱清言等表现波动，模型底层能力还有待改善商汤商量、GPT3.5以及文

点击免费查看完整报告

2023年中国大模型评测（一）：行研创作新范式

你可能感兴趣

2024年中国大模型行研能力年中评测

2023年中国大模型行研能力市场探析：大模型底层助力，行研智慧前行

2025年中国大模型年度评测

2024年中国大模型评测报告

中国大模型行研能力年中评测二AI助力渗透千行百业20241010

2025年中国大食品（A+H）股上市公司研究报告（精简版）：存量竞争1.0时代新增长范式

AI产品测评体验系列报告：多模态模型迎来Deepseek时刻，供给革命将重新定义内容创作范式

2024年中国大模型行业应用优秀案例白皮书

2025年中国大模型一体机行业研究：DeepSeek大模型一体机如何破局行业发展

2024年中国大模型行业应用研究：大模型引领智能时代助力各行业全面升级

2023年中国大模型评测（一）：行研创作新范式

你可能感兴趣

2024年中国大模型行研能力年中评测

2023年中国大模型行研能力市场探析：大模型底层助力，行研智慧前行

2025年中国大模型年度评测

2024年中国大模型评测报告

中国大模型行研能力年中评测二AI助力渗透千行百业20241010

2025年中国大食品（A+H）股上市公司研究报告（精简版）：存量竞争1.0时代新增长范式

AI产品测评体验系列报告：多模态模型迎来Deepseek时刻，供给革命将重新定义内容创作范式

2024年中国大模型行业应用优秀案例白皮书

2025年中国大模型一体机行业研究：DeepSeek大模型一体机如何破局行业发展

2024年中国大模型行业应用研究：大模型引领智能时代 助力各行业全面升级

2024年中国大模型行业应用研究：大模型引领智能时代助力各行业全面升级