您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[头豹研究院]:2023年中国大模型评测(一):行研创作新范式 - 发现报告
当前位置:首页/行业研究/报告详情/

2023年中国大模型评测(一):行研创作新范式

信息技术2024-04-12常乔雨头豹研究院机构上传
2023年中国大模型评测(一):行研创作新范式

团队介绍 头豹是国内领先的行企研究原创内容平台和创新的数字化研究服务提供商。头豹在中国已布局3大研究院,拥有近百名资深分析师,头豹科创网(www.leadleo.com)拥有20万+注册用户,6,000+行业赛道覆盖及相关研究报告产出。 头豹打造了一系列产品及解决方案,包括数据库服务、行企研报服务、微估值及微尽调自动化产品、财务顾问服务、PR及IR服务,研究课程,以及分析师培训等。诚挚欢迎各界精英与头豹交流合作,请即通过邮件或来电咨询。 报告作者 袁栩聪 首席分析师 oliver.yuan@Leadleo.com 常乔雨 行业分析师 charles.chang@Leadleo.com 头豹研究院 咨询/合作 网址:www.leadleo.com 电话:15999806788(袁先生)电话:18916233114(李先生)深圳市华润置地大厦E座4105室 行业研读| 2023/11 中国:人工智能系列 摘要 在报告撰写评测中,各平台表现各异,其中商量整体表现稳定且领先,而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多 行研基础能力从AI辅助文本创作角度出发,结合大模型基础核心能力,归总出对于行业研究报告撰写角度最重要的六大能力维度。 在报告撰写能力评测中,商量整体表现稳定,超过均分。文心一言3.5和星火有波动; 讯飞在分类任务中表现佳,天工在多个领域表现优秀但产业链不足。GPT3.5因信息库旧而在竞争和市场方面失分。智谱清言和通义千问整体稳定,各有突出领域。百川在政策方面波动大,紫东太初和雅意表现相似但在特定模块有所不足。Minimax在多数模块略高于均分,但在某些重要领域失分严重。 报告撰写能力是沙利文及头豹行企研究的全面系统的研究方法论,专用于行业的深入分析。结合详实的数据和精准的分析,显著提升行业研究内容的清晰度和数据的丰富性。 在报告撰写能力板块的表现中,商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋,例如紫东在行业特征的归纳总结能力较强,Minimax则在发展历程和产业链分析细分维度表现优秀。 在行研基础能力评测维度中,商汤商量、GPT3.5、以及文心一言3.5表现稳定性强,在单一模块能力各有领先 大模型在行研基础能力的表现差异显著,商 汤商量、GPT3.5以及文心一言3.5占据前三甲,领先幅度较大。排名靠后的模型虽综合评分低,但细分模块表现优异,例如智谱清言和百川在意图理解能力高于均分。 在行研基础能力评测中,商汤商量、GPT3.5和文心一言3.5表现稳定,各自在不同方面领先。GPT3.5在逻辑推理上领先,商汤商量擅长文字生成和语境转换,文心一言3.5优于意图理解。天工、智谱清言和百川波动性大,表现不均。讯飞星火、腾讯混元和Minimax表现平稳但有波动,特别是Minimax在文字生成上表现较弱。通义千问、紫东太初和雅意整体较弱,特别是在逻辑推理和意图理解上,显示出与领先模型在参数量和微调方面的差距。 研究目的 了解中国语言大模型的发展演变以及竞争态势,通过对大模型进行深度评测来梳理中国语言大模型的市场现状 研究目标 了解中国大模型在报告撰写能力的表现了解中国大模型在行研基础能力的表现 本报告的关键问题 报告撰写能力:中国语言大模型在行企研究报告的撰写能力几何?在竞争格局、市场规模、产业链分析等高难度模块的竞争表现如何? 模型基础能力:中国语言大模型的逻辑推导能力、类比迁移能力等基础能力表现如何? 在报告撰写能力板块的表现中,商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋,例如紫东在行业特征的归纳总结能力较强,Minimax则在发展历程和产业链分析细分维度表现优秀 在报告撰写评测中,不同平台表现存在显著差异。例如,商量凭借其稳定性和在关键模块的领先优势显著。而GPT3.5和百川因信息库更新不足及答案完整性与准确性问题,在高权重模块中失分较多 行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低,重点聚集在信息搜集的准确度。在低难度撰写模块中,12大模型没有显著的差距,但部分模型由于在特定模块中无法回答,因此失分严重 商汤商量、讯飞星火以及文心一言3.5是模型报告撰写能力排名前三甲。在报告撰写的细分模块中,行业定义和分类的平均得分较高,撰写难度相对较低。产业链、竞争格局和市场规模得分较低,撰写难度大 大模型报告撰写能力评测结果——报告撰写能力评测结果 在报告撰写能力板块的表现中,商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型表现各有千秋,例如紫东在行业特征的归纳总结能力较强,Minimax则在发展历程和产业链分析细分维度表现优秀 大模型报告撰写能力评测结果 行业特征 发展历程 产业链 市场规模 政策分析 竞争格局 排名 模型名称 总得分 定义 分类 商汤商量 讯飞星火 文心一言3.5 天工 GPT3.5 腾讯混元 智谱清言 百川 通义千问 紫东太初 Minimax 雅意 得分高 得分低 报告撰写能力由模型在定义、分类、行业特征、发展历程、产业链、市场规模、政策分析以及竞争格局8D模块的表现综合评定而成 模型在报告撰写评测的表现中,商量、讯飞星火、以及文心一言3.5是表现TOP3的模型,其中商汤商量在8D模块均表现强劲,讯飞星火在高难度撰写板块展现一定实力 根据大模型报告撰写能力综合热力矩阵图可以看出商汤商量是综合能力最强的模型,且在各个板块的表现稳定处在前列位置。讯飞星火虽在发展历程失分较为严重,但在市场规模、政策分析以及竞争格局的高难度撰写板块中表现强劲。 大模型报告撰写能力评测结果——报告撰写能力表现 在报告撰写评测中,不同平台表现存在显著差异。例如,商量凭借其稳定性和在关键模块的领先优势显著。而GPT3.5和百川因信息库更新不足及答案完整性与准确性问题,在高权重模块中失分较多 大模型报告撰写能力评测结果 完整版登录www.leadleo.com 搜索《2023年中国大模型行研能力测评(一):行研创作新范式》 产业链 定义 发展历程 分类 竞争格局 市场规模 特征 政策分析 商汤商量 讯飞星火 文心一言 天工 GPT3.5(参考模型) 腾讯混元 智谱 百川 通义千问 紫东太初 Minimax 中科闻歌 在报告撰写评测中,各平台表现各异,其中商量整体表现稳定且领先,而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多 在报告撰写能力评测中,商量的整体表现稳定,在8D模块中均超过均分,领先于其他。 文心一言3.5和星火表现出波动,例如讯飞在发展历程和竞争格局低于均分,但在分类任务中表现最佳。天工在发展历程、市场规模和定义方面表现优秀,但在产业链方面略显不足。GPT3.5在竞争格局和市场规模中失分较多,主要因为其信息库较旧,无法提供有效价值信息,影响了其在报告撰写的综合表现。智谱清言和通义千问的综合表现稳定,在8D各模块中与均分相近,其中智谱清言在政策分析方面表现优异,通义千问在特征环节表现突出。百川的表现波动较大,尤其是在政策模块由于无法给出答案,导致失分严重,影响了整体均分。紫东太初和雅意的表现相似,除在特征和政策分析模块外,其他分值走势几乎一致。Minimax在8D模块中五项略高于均分,但在产业链和竞争格局这两个高权重模块中失分严重。 中国大模型行研能力评测分析——高阶难度模块表现 产业链分析是8D模块中最具挑战性和权重最高的部分,考验大模型在行业定义、信息检索和价值挖掘方面的能力,其中商汤商量、文心一言3.5和讯飞星火凭借出色的知识储备和逻辑推理表现优异 大模型产业链分析能力评测结果 产业链分析 产业链均值:5.80 完整版登录www.leadleo.com 搜索《2023年中国大模型行研能力测评(一):行研创作新范式》 产业链分析作为8D模块中最具挑战性且权重最高的部分,考验着大模型在定义行业、信息检索和价值挖掘方面的综合能力,其中商汤商量、文心一言3.5和讯飞星火因其优秀的知识储备和逻辑推理能力在这一模块中表现突出 产业链分析是高阶难度撰写模块之一,权重在评测分数中占到了17.5%,是8D模块中评测得分权重最大的模块。其复杂性源于需要大模型在三个关键维度进行深入的信息处理:首先是对特定行业产业链的上中下游及其参与者的精确界定;其次是在确认主体后,筛选出与各环节相关的关键信息;最后是对收集到的信息进行深度加工,探索产业链的价值流向和影响力,以提炼出对该行业宏观层面的关键见解。这一系列步骤要求模型具备高度的信息检索和逻辑归纳能力,且随着过程的深入,难度逐渐增大。 大模型在产业链分析表现均分为5.8分,是8D模块的第二低分,侧面反映了其内容产出的难度。其中,商汤商量、文心一言3.5、百川、雅意、讯飞星火以及GPT3.5是表现优异的模型,综合表现高于均分。商汤商量、文心一言3.5以及讯飞星火得益于其优秀的知识储备能力以及逻辑推理归纳能力,在这一模块表现优秀。 中国大模型行研能力评测分析——低阶难度模块表现 行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低,重点聚集在信息搜集的准确度。在低难度撰写模块中,12大模型没有显著的差距,但部分模型由于在特定模块中无法回答,因此失分严重 大模型报告撰写能力低阶难度模块评测结果 行业定义 行业分类 定义均值:6.48 分类均值:6.93 发展历程 政策分析 发展历程均值:6.52 政策分析均值:6.12 完整版登录www.leadleo.com 搜索《2023年中国大模型行研能力测评(一):行研创作新范式》 模型在低难度报告撰写模块的表现中,商汤商量和讯飞星火表现最为优秀,在四个模块的评测得分均显著高于均分 行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低,这四大模块重点落在信息搜集的准确度,对归纳推理的整体要求较低,更多考察模型的知识库丰富性以及把握信息准确性的能力。在低难度撰写模块中,12大模型整体的表现较为平均,模型之间没有显著的差距。但部分模型在发展历程和政策分析模块中无法给出明确的答案,从而导致失分情况严重,对最终均分影响较大。 中国大模型行研能力评测分析——报告撰写能力分布 商汤商量、讯飞星火以及文心一言3.5是模型报告撰写能力排名前三甲。 在报告撰写的细分模块中,行业定义和分类的平均得分较高,撰写难度相对较低。产业链、竞争格局和市场规模得分较低,撰写难度大 大模型报告撰写能力分布 智谱AI:清言 百川:百川 产业链分析 产业链分析 政策分析 行业定义 政策分析 行业定义 行业特征 发展历程 行业特征 发展历程 市场规模 行业分类 市场规模 行业分类 竞争格局 竞争格局 阿里云:通义千问 武汉人工智能研究院:紫东太初 产业链分析 产业链分析 政策分析 行业定义 政策分析 行业定义 行业特征 发展历程 行业特征 发展历程 市场规模 行业分类 市场规模 行业分类 竞争格局 竞争格局 中科闻歌:雅义 名之梦:MiniMax 产业链分析 产业链分析 政策分析 行业定义 政策分析 行业定义 行业特征 发展历程 行业特征 发展历程 市场规模 行业分类 市场规模 行业分类 竞争格局 竞争格局 大模型在行研基础能力的表现差异显著,商汤商量、GPT3.5以及文心一言3.5占据前三甲,领先幅度较大。排名靠后的模型虽综合评分低,但细分模块表现优异,例如智谱清言和百川在意图理解能力高于均分 在行研基础能力评测中,GPT3.5、商汤商量和文心一言3.5稳定领先,展现出各自在逻辑推理、文字生成和意图理解的强项,而其他模型如天工、智谱清言等表现波动,模型底层能力还有待改善 商汤商量、GPT3.5以及文