行业研究公司研究宏观策略财报招股书会议纪要对等关税低空经济 DeepSeek AIGC 智能驾驶大模型

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

信息技术2024-06-26袁栩聪、常乔雨头豹研究院机构上传

AI智能总结

报告概要

大语言模型评测背景与方法论

评测目的：确保用户选择优质大语言模型，促进技术健康有序发展。
评测方法：综合考量用户使用体验、实际价值，围绕五大一级维度（知识能力、语言能力、道德风险、行业能力、综合能力）构建全面评估体系，细分为风险信息识别、逻辑推理、类比迁移、角色扮演等二级维度。

大语言模型综合表现

2024年评测结果：国际领先模型在通用基础能力和专业应用能力上稍占优势，中国领先模型如文心、GPT3.5、通义千问表现突出，处于第一梯队。
评测结果：大语言模型在道德风险、语言能力、知识能力、行业能力及综合能力上存在差异，文心、GPT3.5、通义千问在第一梯队表现出色。
通用基础能力：文心一言、腾讯混元、商汤日日新·商量在通用基础能力评测中优于国际均线，显示出中国大模型在自然语言处理领域的实力。
专业应用能力：中国大模型在行业应用能力评测中整体表现优异，特别是文心一言、腾讯混元、商汤日日新·商量、通义千问在专业应用能力方面显著优于国际均线。

一级维度综合评测结果

道德责任：文心一言、通义千问在道德责任维度表现突出。
行业能力：文心一言、通义千问在行业应用中表现出色。
语言能力：文心一言、通义千问、Moonshot在语言处理上表现优秀。
数理科学：360智脑、智谱AI、文心一言在数理科学层面表现良好。
综合能力：文心一言、腾讯混元、Moonshot在综合能力方面占据领先地位。

结论

大语言模型评测为中国及国际模型提供了全面的性能比较，有助于用户做出明智选择，促进技术的健康发展。中国大模型在某些关键领域展现出色性能，特别是文心、GPT3.5、通义千问等模型在通用基础能力和专业应用能力方面表现突出，值得行业关注。

2024年中国大语言模型能力评析（一）：评测方法论与综合评测结果-AI变革行业创新发展

团队介绍头豹是国内领先的行企研究原创内容平台和创新的数字化研究服务提供商。头豹在中国已布局3大研究院，拥有近百名资深分析师，头豹科创网(www.leadleo.com)拥有20万+注册用户，6,000+行业赛道覆盖及相关研究报告产出。头豹打造了一系列产品及解决方案，包括数据库服务、行企研报服务、微估值及微尽调自动化产品、财务顾问服务、PR及IR服务，研究课程，以及分析师培训等。诚挚欢迎各界精英与头豹交流合作，请即通过邮件或来电咨询。报告作者袁栩聪首席分析师 oliver.yuan@Leadleo.com 常乔雨行业分析师 charles.chang@Leadleo.com 头豹研究院咨询/合作网址：www.leadleo.com 电话：15999806788（袁先生）电话：18916233114（李先生）深圳市华润置地大厦E座4105室行业研读| 2023/11 中国：人工智能系列摘要从用户实际使用角度出发，归总出五大一级评测维度，以构建全面科学的评估体系自2022年12月GPT3.5发布以来，大语言模型在全球范围内引发了空前的关注与热潮。其所揭示的无限潜能，不仅将人工智能从学术殿堂推向了实际应用的前沿，更引领了一场行业变革。截至2024年2月，全球已有超百个大语言模型问世，类型涵盖开源、闭源、二次开发及微调等，发布机构则遍布互联网科技巨头、云计算领先企业、综合人工智能公司、智能设备制造商以及数字基础设施提供商等。随着大语言模型热度的持续攀升和众多模型的相继上市，用户在选择时面临诸多挑战，尤其是模型技术的不断更新，使得如何持续确保使用市场上最优质的模型成为用户关注的焦点。因此，全面深入的大语言模型评测显得尤为关键。它不仅为用户提供了客观评估模型优劣的依据，还为实际应用提供了有力的决策支持，有助于用户做出明智的选择。本次大语言模型评测以用户使用体验和实际使用价值为基准，综合考量知识能力、语言能力、道德风险、行业能力及综合能力五大核心一级维度，并进一步细化为风险信息识别、逻辑推理、类比迁移、角色扮演等多个二级维度，以构建全面、科学的评估体系，确保准确衡量模型的优势与不足。 2024年大语言模型综合评测显示，国际领先模型在通用基础能力和专业应用能力上略优于中国领先模型，其中文心、GPT3.5和通义千问位居第一梯队根据2024年大语言模型综合评测结果来看，国际领先的模型整体水平略优于中国领先大语言模型的均线。根据国际大语言模型均线、中国大语言模型均线划分出了三个梯队，第一梯队包括文心、GPT3.5以及通义千问；第二梯队包括360智脑、商汤商量、智谱AI、中科闻歌雅意以及腾讯混元；第三梯队包括Minimax、面壁智能、紫东太初、百川智能以及昆仑天工。进一步而言，客观、公正且全面的评测对于促进大语言模型技术的健康有序发展具有重要意义。通过系统评估模型的性能、稳定性、安全性等核心要素，我们能够确保用户根据自身需求精准匹配最合适的模型，从而有效降低决策风险。这样的评测不仅提升了用户的使用体验，也推动了大语言模型技术的不断进步和优化。研究目的深入剖析截至2024年2月中国大型模型在自然语言处理领域的发展态势与全面性能评估研究目标了解中国大语言模型的发展背景归纳科学评测体系与研究方法论分析中国大语言模型的综合表现挖掘中国大语言模型的优势本报告的关键问题中国大语言模型的发展如何？中国优秀的大语言模型有哪些？具体优势在哪儿？中国大语言模型与国际领先的大模型对比如何？中国大语言模型总体表现如何？大语言模型：基于海量数据训练，拥有巨大参数规模，能理解和生成自然语言文本的人工智能模型。裁判模型：用于评估不同大模型能力的模型。随着大语言模型热度的持续攀升和众多模型的相继上市，大语言模型评测对于确保用户选择市场上最优质模型、推动大语言模型技术进步及优化用户体验至关重要，是人工智能领域健康有序发展的关键环节本次大语言模型评测聚焦中外多个代表性大语言模型，通过全面对比性能、稳定性、安全性等方面，旨在深入挖掘特定领域内的优势和不足，为用户提供精准决策支持本次大语言模型评测以用户使用体验和实际使用价值为基准，通过综合考量五大核心维度及多个细化二级维度，构建全面科学的评估体系，确保准确评估模型优势与不足中国大模型评测背景与方法论——评测背景随着大模型热度的持续攀升和众多模型的相继上市，评测对于确保用户选择市场上最优质模型、推动大模型技术进步及优化用户体验至关重要，是人工智能领域健康有序发展的关键环节大模型的创业企业汇总云计算大厂综合人工智能企业大模型创业企业三大运营商高校及研究院其它企业互联网科技数字基础设施供应商智能设备制造国际大模型大模型评测对于确保用户选择最优质模型、推动技术进步及优化用户体验至关重要，是促进大模型技术健康有序发展的关键环节自2022年12月GPT3.5发布以来，大模型在全球范围内引发了前所未有的关注与热潮。其所展现出的巨大潜力，不仅推动了人工智能从学术研究向实际应用领域的跨越，更引领了行业的革新与变革。截至2024年2月，全球范围内已有超百款大模型问世，涵盖开源、闭源、二次开发及微调等多种类型，且发布机构遍布各大互联网科技巨头、云计算领军企业、综合人工智能公司、智能设备制造商以及数字基础设施提供商等。随着大模型市场的持续升温和众多模型的接连涌现，用户在选择时面临诸多挑战，特别是模型技术的不断更新，使得如何确保持续使用市场上最优质的模型成为用户关注的焦点。进一步而言，客观、公正且全面的评测对于促进大模型技术的健康有序发展具有重要意义。通过系统评估模型的性能、稳定性、安全性等核心要素，能够确保用户根据自身需求精准匹配最合适的模型，从而有效降低决策风险。这样的评测不仅提升了用户的使用体验，也推动了大模型技术的不断进步和优化。中国大模型评测背景与方法论——参与者概览本次大模型评测聚焦中国市场领先的大模型，通过全面对比两大核心能力和五大基础维度，深入剖析各模型的优势与不足，为用户提供精准的决策支持大模型参与者概览序号1 2 3 模型版本文心一言4.0天工V3.5通义千问2.0商汤日日新·商量（2024/02)腾讯混元V1.6.4智谱AI GLM-4紫东太初2.0雅意YAYI2.0 360智脑网页版（2024/02）MiniMax abab6 Moonshot Kimi.ai(2024/02) 大模型参选榜单 5 6 7 8 豆包 12面壁露卡（2024/02）13讯飞星火V3.5 14百川baichuan2-Turbo 15豆包（2024/02）本次大模型评测聚焦中外多个代表性大模型，通过全面对比性能、稳定性、安全性等方面，旨在深入挖掘特定领域内的优势和不足，为用户提供精准决策支持从用户视角出发，本次大模型评测着重关注通过网络端口提供服务、用户可直接通过网页端使用的大模型。鉴于市场热度和内部分析师的投票选择，锁定了中外多个具有代表性的大模型进行评测。在中国，入围的模型包括商汤日日新·商量、文心一言、通义千问、豆包、天工、中科闻歌、Minimax、腾讯混元、Moonshot、360智脑、紫东太初、智谱AI、讯飞星火以及百川智能等。这些模型在国内具有广泛的应用和较高的用户黏性。与此同时，国际方面选择了OpenAI的GPT3.5和GPT4、谷歌的Gemini以及Anthropic的Claude。这四个国际大模型不仅技术成熟，而且已经成功向社会开放了商业化接口，具有较高的市场认可度。通过本次评测，旨在全面对比中国大模型与国际大模型在性能、稳定性、安全性等方面的差距，并深入挖掘在特定领域内的优势和不足。这将有助于更准确地把握当前大模型技术的发展趋势，为用户提供更加精准、有价值的决策支持。中国大语言模型产业洞察——题目搜集方法论为确保题库质量和模型性能测试的精准性，搜集端采用客观搜集架构，该架构通过多层级问题筛选，结合主客观形式，全面保障题目质量，并广泛涵盖多样题型，以最大程度考察模型的基础能力大语言模型题目搜集端方法论搜集端多维度测试集人员分离选取不同类型、难度和领域的题目，测试模型的广泛及泛化能力分离搜集人员和评测人员，确保评测结果的客观、可靠问题变换专业审核防止模型过于依赖先前见过的具体题目或信息，影响评测结果征集专业分析师对测评题目进行审核、修改、筛选或设计问题搜集题库示例：低客观题：正确B级题目错误主观题答案满意度：高 S+级题目 C级题目 S级题目 A级题目主观题客观题知识能力语言能力道德风险行业能力综合能力主观题客观题搜集端通过设计客观搜集架构与筛选多层级问题，确保题库质量，精准测试模型性能，广泛覆盖基础能力考察范围为确保题库质量并精准测试模型性能，本次评测在搜集端设计了一套客观搜集架构。该架构通过筛选多层级问题，并结合人为主观与客观形式，全面保障搜集的题目既符合质量标准，又能深入检验模型的真实能力。题库内容广泛，涵盖专业测试题、逻辑推理题及实际任务完成题等多样题型，旨在最大程度覆盖基础能力考察范围。中国大语言模型产业洞察——题目评测方法论本次评测团队经验均有一年以上的大语言模型实践经验，对1500多道题目进行了深入评估，涉及20+细分维度。为确保评测的公正和客观，团队结合盲测机制和裁判模型两种方法，确保结果的一致性和准确性大语言模型题目评测端方法论评测端评测问题累计细分评测维度分析师评估团队裁判模型 1500题+ 20+ 20人+ GPT4-Turbo 随机打乱 70% 30% 裁判模型：GPT4-Turbo 专业分析师团队评测模型名称企业机构知识能力语言能力道德能力行业能力综合能力 XXX XX XXX XX XXX XX 本次评测采用盲测和GPT4-Turbo大语言模型双重机制，确保评测流程的客观公正和综合结果的一致性在评测端，为评测流程客观公正，本次评测采用盲测的评测机制，大语言模型的答案顺序会完全打乱，分析师团队在评测过程中对模型答案完全不知晓，以确保不会受到对特定模型偏见的影响。同时，除了分析师的人为评测外，本次加入裁判大语言模型GPT4-Turbo进行评测以保证大语言模型综合结果的一致性和客观性。中国大模型评测背景与方法论——维度选择本次大模型评测以用户使用体验和实际使用价值为基准，通过综合考量五大核心维度及多个细化二级维度，构建全面科学的评估体系，确保准确评估模型优势与不足大模型评测维度选择五大评测维度知识幻觉医疗行业从用户实际使用角度出发，归总出五大一级评测维度，以构建全面科学的评估体系本次大模型评测以用户使用体验和实际使用价值为基准，综合考量数理科学、语言能力、道德责任、行业能力及综合能力五大核心一级维度，并进一步细化为风险信息识别、逻辑推理、类比迁移、角色扮演等多个二级维度，以构建全面、科学的评估体系，确保准确衡量模型的优势与不足。中国大模型评测背景与方法论——通用基础与专业应用能力本次评测涵盖大模型的两大核心价值能力：通用基础能力和专业应用能力。前者是AI自然语言处理的基石，后者则决定模型在实际使用中的表现。两者结合，构筑了用户角度的坚实基础大模型基础设施构成数理科学:指模型能够全面评估模型在各个知识领域中的掌握程度和应用能力，从而确保模型在面对各种复杂问题时能够做出准确、全面的响应。语言能力:指决定模型能否精准把握用户意图，生成贴切自然的文本，并在多样复杂的情境中自如应对。通用基础能力道德责任:指确保模型遵循伦理、减少误导和增强抗干扰能力。是保障AI技术公正可靠、推动其长远发展的关键。大模型的通用基础能力

点击免费查看完整报告