您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[头豹研究院]:2024年中国大语言模型能力评析(一):评测方法论与综合评测结果-AI变革行业创新发展 - 发现报告
当前位置:首页/行业研究/报告详情/

2024年中国大语言模型能力评析(一):评测方法论与综合评测结果-AI变革行业创新发展

信息技术2024-06-27袁栩聪、常乔雨头豹研究院机构上传
2024年中国大语言模型能力评析(一):评测方法论与综合评测结果-AI变革行业创新发展

团队介绍 头豹是国内领先的行企研究原创内容平台和创新的数字化研究服务提供商。头豹在中国已布局3大研究院,拥有近百名资深分析师,头豹科创网(www.leadleo.com)拥有20万+注册用户,6,000+行业赛道覆盖及相关研究报告产出。 头豹打造了一系列产品及解决方案,包括数据库服务、行企研报服务、微估值及微尽调自动化产品、财务顾问服务、PR及IR服务,研究课程,以及分析师培训等。诚挚欢迎各界精英与头豹交流合作,请即通过邮件或来电咨询。 报告作者 袁栩聪 首席分析师 oliver.yuan@Leadleo.com 常乔雨 行业分析师 charles.chang@Leadleo.com 头豹研究院 咨询/合作 网址:www.leadleo.com 电话:15999806788(袁先生)电话:18916233114(李先生)深圳市华润置地大厦E座4105室 行业研读| 2023/11 中国:人工智能系列 摘要 从用户实际使用角度出发,归总出五大一级评测维度,以构建全面科学的评估体系 自2022年12月GPT3.5发布以来,大语言模型在全球范围内引发了空前的关注与热潮。其所揭示的无限潜能,不仅将人工智能从学术殿堂推向了实际应用的前沿,更引领了一场行业变革。截至2024年2月,全球已有超百个大语言模型问世,类型涵盖开源、闭源、二次开发及微调等,发布机构则遍布互联网科技巨头、云计算领先企业、综合人工智能公司、智能设备制造商以及数字基础设施提供商等。随着大语言模型热度的持续攀升和众多模型的相继上市,用户在选择时面临诸多挑战,尤其是模型技术的不断更新,使得如何持续确保使用市场上最优质的模型成为用户关注的焦点。因此,全面深入的大语言模型评测显得尤为关键。它不仅为用户提供了客观评估模型优劣的依据,还为实际应用提供了有力的决策支持,有助于用户做出明智的选择。 本次大语言模型评测以用户使用体验和实际使用价值为基准,综合考量知识能力、语言能力、道德风险、行业能力及综合能力五大核心一级维度,并进一步细化为风险信息识别、逻辑推理、类比迁移、角色扮演等多个二级维度,以构建全面、科学的评估体系,确保准确衡量模型的优势与不足。 2024年大语言模型综合评测显示,国际领先模型在通用基础能力和专业应用能力上略优于中国领先模型,其中文心、GPT3.5和通义千问位居第一梯队 根据2024年大语言模型综合评测结果来看,国际领先的模型整体水平略优于中国领先大语言模型的均线。根据国际大语言模型均线、中国大语言模型均线划分出了三个梯队,第一梯队包括文心、GPT3.5以及通义千问;第二梯队包括360智脑、商汤商量、智谱AI、中科闻歌雅意以及腾讯混元;第三梯队包括Minimax、面壁智能、紫东太初、百川智能以及昆仑天工。 进一步而言,客观、公正且全面的评测对于促进大语言模型技术的健康有序发展具有重要意义。通过系统评估模型的性能、稳定性、安全性等核心要素,我们能够确保用户根据自身需求精准匹配最合适的模型,从而有效降低决策风险。这样的评测不仅提升了用户的使用体验,也推动了大语言模型技术的不断进步和优化。 研究目的 深入剖析截至2024年2月中国大型模型在自然语言处理领域的发展态势与全面性能评估 研究目标 了解中国大语言模型的发展背景归纳科学评测体系与研究方法论分析中国大语言模型的综合表现挖掘中国大语言模型的优势 本报告的关键问题 中国大语言模型的发展如何? 中国优秀的大语言模型有哪些?具体优势在哪儿? 中国大语言模型与国际领先的大模型对比如何? 中国大语言模型总体表现如何? 大语言模型:基于海量数据训练,拥有巨大参数规模,能理解和生成自然语言文本的人工智能模型。 裁判模型:用于评估不同大模型能力的模型。 随着大语言模型热度的持续攀升和众多模型的相继上市,大语言模型评测对于确保用户选择市场上最优质模型、推动大语言模型技术进步及优化用户体验至关重要,是人工智能领域健康有序发展的关键环节 本次大语言模型评测聚焦中外多个代表性大语言模型,通过全面对比性能、稳定性、安全性等方面,旨在深入挖掘特定领域内的优势和不足,为用户提供精准决策支持 本次大语言模型评测以用户使用体验和实际使用价值为基准,通过综合考量五大核心维度及多个细化二级维度,构建全面科学的评估体系,确保准确评估模型优势与不足 中国大模型评测背景与方法论——评测背景 随着大模型热度的持续攀升和众多模型的相继上市,评测对于确保用户选择市场上最优质模型、推动大模型技术进步及优化用户体验至关重要,是人工智能领域健康有序发展的关键环节 大模型的创业企业汇总 云计算大厂 综合人工智能企业 大模型创业企业 三大运营商 高校及研究院 其它企业 互联网科技 数字基础设施供应商 智能设备制造 国际大模型 大模型评测对于确保用户选择最优质模型、推动技术进步及优化用户体验至关重要,是促进大模型技术健康有序发展的关键环节 自2022年12月GPT3.5发布以来,大模型在全球范围内引发了前所未有的关注与热潮。 其所展现出的巨大潜力,不仅推动了人工智能从学术研究向实际应用领域的跨越,更引领了行业的革新与变革。截至2024年2月,全球范围内已有超百款大模型问世,涵盖开源、闭源、二次开发及微调等多种类型,且发布机构遍布各大互联网科技巨头、云计算领军企业、综合人工智能公司、智能设备制造商以及数字基础设施提供商等。随着大模型市场的持续升温和众多模型的接连涌现,用户在选择时面临诸多挑战,特别是模型技术的不断更新,使得如何确保持续使用市场上最优质的模型成为用户关注的焦点。 进一步而言,客观、公正且全面的评测对于促进大模型技术的健康有序发展具有重要意义。通过系统评估模型的性能、稳定性、安全性等核心要素,能够确保用户根据自身需求精准匹配最合适的模型,从而有效降低决策风险。这样的评测不仅提升了用户的使用体验,也推动了大模型技术的不断进步和优化。 中国大模型评测背景与方法论——参与者概览 本次大模型评测聚焦中国市场领先的大模型,通过全面对比两大核心能力和五大基础维度,深入剖析各模型的优势与不足,为用户提供精准的决策支持 大模型参与者概览 序号1 2 3 模型版本文心一言4.0天工V3.5通义千问2.0商汤日日新·商量(2024/02)腾讯混元V1.6.4智谱AI GLM-4紫东太初2.0雅意YAYI2.0 360智脑网页版(2024/02)MiniMax abab6 Moonshot Kimi.ai(2024/02) 大模型参选榜单 5 6 7 8 豆包 12面壁露卡(2024/02)13讯飞星火V3.5 14百川baichuan2-Turbo 15豆包(2024/02) 本次大模型评测聚焦中外多个代表性大模型,通过全面对比性能、稳定性、安全性等方面,旨在深入挖掘特定领域内的优势和不足,为用户提供精准决策支持 从用户视角出发,本次大模型评测着重关注通过网络端口提供服务、用户可直接通过网页端使用的大模型。鉴于市场热度和内部分析师的投票选择,锁定了中外多个具有代表性的大模型进行评测。 在中国,入围的模型包括商汤日日新·商量、文心一言、通义千问、豆包、天工、中科闻歌、Minimax、腾讯混元、Moonshot、360智脑、紫东太初、智谱AI、讯飞星火以及百川智能等。这些模型在国内具有广泛的应用和较高的用户黏性。与此同时,国际方面选择了OpenAI的GPT3.5和GPT4、谷歌的Gemini以及Anthropic的Claude。这四个国际大模型不仅技术成熟,而且已经成功向社会开放了商业化接口,具有较高的市场认可度。 通过本次评测,旨在全面对比中国大模型与国际大模型在性能、稳定性、安全性等方面的差距,并深入挖掘在特定领域内的优势和不足。这将有助于更准确地把握当前大模型技术的发展趋势,为用户提供更加精准、有价值的决策支持。 中国大语言模型产业洞察——题目搜集方法论 为确保题库质量和模型性能测试的精准性,搜集端采用客观搜集架构,该架构通过多层级问题筛选,结合主客观形式,全面保障题目质量,并广泛涵盖多样题型,以最大程度考察模型的基础能力 大语言模型题目搜集端方法论 搜集端 多维度测试集 人员分离 选取不同类型、难度和领域的题目,测试模型的广泛及泛化能力 分离搜集人员和评测人员,确保评测结果的客观、可靠 问题变换 专业审核 防止模型过于依赖先前见过的具体题目或信息,影响评测结果 征集专业分析师对测评题目进行审核、修改、筛选或设计 问题搜集题库示例: 低 客观题:正确B级题目 错误 主观题答案满意度:高 S+级题目 C级题目 S级题目 A级题目 主观题 客观题 知识能力 语言能力 道德风险 行业能力 综合能力 主观题客观题 搜集端通过设计客观搜集架构与筛选多层级问题,确保题库质量,精准测试模型性能,广泛覆盖基础能力考察范围 为确保题库质量并精准测试模型性能,本次评测在搜集端设计了一套客观搜集架构。该架构通过筛选多层级问题,并结合人为主观与客观形式,全面保障搜集的题目既符合质量标准,又能深入检验模型的真实能力。题库内容广泛,涵盖专业测试题、逻辑推理题及实际任务完成题等多样题型,旨在最大程度覆盖基础能力考察范围。 中国大语言模型产业洞察——题目评测方法论 本次评测团队经验均有一年以上的大语言模型实践经验,对1500多道题目进行了深入评估,涉及20+细分维度。为确保评测的公正和客观,团队结合盲测机制和裁判模型两种方法,确保结果的一致性和准确性 大语言模型题目评测端方法论 评测端 评测问题累计 细分评测维度 分析师评估团队 裁判模型 1500题+ 20+ 20人+ GPT4-Turbo 随机打乱 70% 30% 裁判模型:GPT4-Turbo 专业分析师团队评测 模型名称 企业机构 知识能力 语言能力 道德能力 行业能力 综合能力 XXX XX XXX XX XXX XX 本次评测采用盲测和GPT4-Turbo大语言模型双重机制,确保评测流程的客观公正和综合结果的一致性 在评测端,为评测流程客观公正,本次评测采用盲测的评测机制,大语言模型的答案顺序会完全打乱,分析师团队在评测过程中对模型答案完全不知晓,以确保不会受到对特定模型偏见的影响。同时,除了分析师的人为评测外,本次加入裁判大语言模型GPT4-Turbo进行评测以保证大语言模型综合结果的一致性和客观性。 中国大模型评测背景与方法论——维度选择 本次大模型评测以用户使用体验和实际使用价值为基准,通过综合考量五大核心维度及多个细化二级维度,构建全面科学的评估体系,确保准确评估模型优势与不足 大模型评测维度选择 五大评测维度 知识 幻觉 医疗行业 从用户实际使用角度出发,归总出五大一级评测维度,以构建全面科学的评估体系 本次大模型评测以用户使用体验和实际使用价值为基准,综合考量数理科学、语言能力、道德责任、行业能力及综合能力五大核心一级维度,并进一步细化为风险信息识别、逻辑推理、类比迁移、角色扮演等多个二级维度,以构建全面、科学的评估体系,确保准确衡量模型的优势与不足。 中国大模型评测背景与方法论——通用基础与专业应用能力 本次评测涵盖大模型的两大核心价值能力:通用基础能力和专业应用能力。前者是AI自然语言处理的基石,后者则决定模型在实际使用中的表现。两者结合,构筑了用户角度的坚实基础 大模型基础设施构成 数理科学:指模型能够全面评估模型在各个知识领域中的掌握程度和应用能力,从而确保模型在面对各种复杂问题时能够做出准确、全面的响应。 语言能力:指决定模型能否精准把握用户意图,生成贴切自然的文本,并在多样复杂的情境中自如应对。 通用基础能力 道德责任:指确保模型遵循伦理、减少误导和增强抗干扰能力。是保障AI技术公正可靠、推动其长远发展的关键。 大模型的通用基础能力