团队介绍 头豹是国内领先的行企研究原创内容平台和创新的数字化研究服务提供商。头豹在中国已布局3大研究院,拥有近百名资深分析师,头豹科创网(www.leadleo.com)拥有20万+注册用户,6,000+行业赛道覆盖及相关研究报告产出。 头豹打造了一系列产品及解决方案,包括数据库服务、行企研报服务、微估值及微尽调自动化产品、财务顾问服务、PR及IR服务,研究课程,以及分析师培训等。诚挚欢迎各界精英与头豹交流合作,请即通过邮件或来电咨询。 报告作者 袁栩聪 首席分析师 oliver.yuan@Leadleo.com 王利华 行业分析师 lihua.wang@leadleo.com 头豹研究院 咨询/合作 网址:www.leadleo.com 电话:15999806788(袁先生)电话:18916233114(李先生)深圳市华润置地大厦E座4105室 行业研读| 2024/2 中国:人工智能系列 摘要 中国大模型在行业应用与专业知识储备上表现出色,文心一言、通义千问尤为突出,并在道德伦理安全方面领先国际平均水平 在行业应用能力领域,文心一言、通义千问及混元大模型等凭借其强大的泛化能力和深度学习技术,能够灵活适应并高效解决各行业复杂多变的实际问题,在各类行业能力评测中均展现出卓越的表现和广泛的应用潜力。尤其是在一些关键行业的能力评测中,这些头部大模型展现出了显著的领先优势,例如文心一言与通义千问已经在超过10个以上的行业中确立了其专业能力的领先地位。然而,对比之下,目前排名较为靠后的大模型在应对不同行业领域的专业问题时,其处理能力和适应性略显不足,尤其在面对行业细分场景和复杂任务挑战时,表现一般。这意味着,对于这些大模型而言,还有很大的空间去加强其行业特性和专业能力的优化提升,以满足更多行业需求,实现更全面、深入的应用落地。 从专业知识储备维度来看,文心一言、腾讯混元、通义千问、商量等大模型表现超国际水平,仍有部分大模型的专业知识储备能力处于中国均值以下,专业知识储备能力有待进一步提升。 从行业应用能力维度来看,中国多数大模型表现较好,展示了优秀的行业理解与应用能力,处于中国均值以上,其中文心一言、通义千问凭借超强的行业应用能力,表现亮眼,超国际均值。 从行业道德伦理安全维度来看,中国的大模型表现具有较大的差异,其中文心一言、通义千问、天工等大模型表现优异,超国际均值,少数大模型由于无法识别和理解行业中的道德伦理安全,表现一般。 研究框架 中国大语言模型能力评析行业能力评测结果大模型优势行业分析专业知识储备细分维度行业应用能力细分维度道德伦理安全细分维度行业能力细分行业方法论 5 5 6 7 8 9 10 27 28 法律声明 名词解释 大模型:通常指的是在深度学习中使用的具有大量参数和复杂结构的模型。这些模型需要大量的计算资源和数据来进行训练。 深度学习:深度学习是机器学习的一个子领域,它基于神经网络(尤其是深度神经网络)来学习数据的表示。这些网络通常由多个处理层组成,可以学习数据的多层次抽象。深度学习已成功应用于图像识别、语音识别、自然语言处理等许多任务。 数据孤岛:指的是在组织或系统中,数据被分隔成多个独立、不兼容或难以整合的部分。这种情况是由于技术、组织或政策障碍造成的。数据孤岛导致信息不一致、重复工作和决策失误。 智能客服:是利用人工智能技术(如自然语言处理、机器学习等)来自动回答客户问题、提供支持和帮助的系统。智能客服可以处理常见问题,减轻人工客服的负担,并提高客户满意度。 知识图谱:是一种表示实体(如人、地点、概念等)及其之间关系的图结构。它可以用于组织、理解和共享网络知识。知识图谱在搜索引擎优化、推荐系统、问答系统等领域有广泛应用。 自然语言处理:是人工智能和语言学的交叉领域,旨在让计算机理解和生成人类语言。NLP技术包括文本分析、情感分析、机器翻译、语音识别、文本生成等。这些技术使计算机能够处理和理解人类语言的复杂性。 中国大模型能力评析——行业能力评测结果 在行业能力板块,文心一言、通义千问、混元大模型能灵活适应并高效解决各行业实际应用场景中所遇到的问题,在多行业能力评测中表现优异,而排名末位的大模型面对大多数行业的专业能力表现一般 大模型行业能力评测结果 互联 泛娱房地乐产业 线下零售 模型名称得分传媒电商电信法律 工业网科教育金融旅游能源农业技 医疗运输政务 文心一言7.23 通义千问7.13 腾讯混元7.00 日日新·商量 360智脑6.87 百川智能6.60 Moonshot(Kimi.ai) 完整版登录www.leadleo.com 搜索《2024年中国大语言模型能力评析(三):行业应用 智谱AI 能力评测结果》 豆包 天工 讯飞星火5.95 雅意 MiniMax5.75 紫东太初5.67 面壁露卡5.21 得分高 得分低 中国大模型能力评析——大模型优势行业 在行业能力板块,大模型所拥有的优势行业呈现明显特征,头部大模型在多个行业中表现出领先优势,如文心一言、通义千问拥有超10个以上的优势行业,末位大模型的行业能力仍需进一步提升 大模型优势行业分析 模型名称 优势行业 电商教育 电信旅游 泛娱乐医疗 房地产运输 工业 文心一言 线下零售 电商能源 电信农业 泛娱乐医疗 房地产运输 教育政务 通义千问 线下零售 传媒 法律 泛娱乐 政务 教育 腾讯混元 金融 旅游 线下零售 互联网科技 房地产 工业 教育 金融 旅游 完整版登录www.leadleo.com 日日新·商量 法律 农业 线下零售 搜索《2024年中国大语言模型能力评析(三):行业应用 360智脑 传媒 电信 农业 运输 政务 能力评测结果》 百川智能 法律 农业 互联网科技 Moonshot(Kimi.ai) 电商 法律 能源 智谱AI 金融 能源 传媒 互联网科技 豆包 天工 泛娱乐 房地产 能源 讯飞星火 雅意 工业 MiniMax 传媒 中国大模型能力评析——专业知识储备细分维度 从专业知识储备维度来看,文心一言、腾讯混元、通义千问、商汤日日新·商量等大模型表现超国际水平,仍有部分大模型的专业知识储备能力处于中国均值以下,专业知识储备能力有待进一步提升 大模型行业能力专业知识储备维度评测结果 专业知识储备 国际均值:6.69中国均值:6.12 完整版登录www.leadleo.com 搜索《2024年中国大语言模型能力评析(三):行业应用 能力评测结果》 文心一言、腾讯混元、通义千问、商汤日日新·商量以及360智脑超国际均值,但中国仍有部分大模型表现一般,在专业知识储备能力仍有待提升 文心一言、通义千问、商汤日日新·商量以及360智脑之所以能够达到如此高的知识储备水平,背后是海量的数据支撑和先进的算法驱动。以文心一言为例,其背后是百度强大的数据生态和深度学习技术积累,这使得它能够快速吸收和整合各类知识,实现高水平的智能化响应。 反观中国多数大模型,其专业知识储备能力却处于中国均值以下。一方面,在AI大模型的训练中,高质量、多样化的数据集是关键。但许多领域的数据资源并不丰富,甚至存在数据孤岛现象,增加了模型训练的难度。另一方面,尽管目前深度学习算法已相对成熟,但在实际应用中,如何结合具体领域的特点进行优化和改进,仍是一大挑战。此外,中国AI领域的人才储备和研发投入相比国际先进水平仍有差距,这也在一定程度上制约了中国大模型的发展。 举例来说,企业想要获取高质量的医疗数据集十分困难。因此,要想在医疗领域推出具有高水平专业知识储备的AI大模型,就需要在数据整合、算法优化等方面下足功夫。 中国大模型能力评析——行业应用能力细分维度 从行业应用能力维度来看,中国多数大模型表现较好,展示了优秀的行业理解与应用能力,处于中国均值以上,其中文心一言、通义千问凭借超强的行业应用能力,表现亮眼,超国际均值 大模型行业应用能力维度评测结果 行业应用能力 国际均值:6.90中国均值:6.85 完整版登录www.leadleo.com 搜索《2024年中国大语言模型能力评析(三):行业应用 能力评测结果》 从行业应用能力维度来评判,文心一言、通义千问、商汤日日新·商量、腾讯混元等大模型展现出不俗的实力,并且多数模型在理解和应用行业知识方面达到中国平均水平之上,反映出中国大模型对行业特性的深入洞察以及将技术转化为实际解决方案的能力 在中国大模型的行业应用能力维度上,整体呈现出较为积极的发展态势,大部分模型已成功突破单纯的语言处理能力边界,展现出良好的行业理解和适应能力。 以文心一言为例,该模型在诸多行业应用场景中体现了强大的适配性和实用性。比如,在金融领域,它能够快速理解和解析复杂的金融政策、精准识别风险信号,辅助金融机构进行高效决策;在教育领域,文心一言可以个性化定制教学方案,辅助教师进行知识点解析,提高教学效率和质量。 以通义千问为例,依托于阿里巴巴集团丰富的商业生态体系,深入电商、物流、客户服务等多个核心业务场景,如在电商推荐系统中,基于用户行为和产品信息大数据进行深度学习,实现精准的商品推荐,显著提升了用户体验和服务效能。 中国大模型能力评析——道德伦理安全细分维度 从行业道德伦理安全维度来看,中国大模型表现具有较大的差异,其中文心一言、通义千问、天工等大模型表现优异,超国际均值,少数大模型由于无法识别和理解行业中的道德伦理安全,表现一般 大模型行业能力道德伦理安全维度评测结果 道德伦理安全 国际均值:6.59中国均值:6.45 完整版登录www.leadleo.com 搜索《2024年中国大语言模型能力评析(三):行业应用 能力评测结果》 大模型的应用过程中,必须充分考虑道德伦理因素,以确保模型的决策和判断符合社会价值观和行业标准,其中文心一言、通义千问以及天工等大模型表现优异 文心一言、通义千问以及天工等大模型能够充分考虑不同行业的道德伦理因素,在处理涉及道德伦理问题时能够做出合理的判断和决策。其原因在于,基于深度学习的自然语言处理技术,进行大量的行业数据和案例的训练,从而积累了丰富的道德伦理知识,使得大模型能够准确识别和理解文本中的道德伦理要素,进而在生成回答或执行任务时避免产生不当或有害的内容。表现较为一般的大模型,主要是由于大模型在设计和训练过程中缺乏对道德伦理因素的充分考虑。 举例来说,假设大模型在处理敏感话题时由于缺乏足够的道德伦理意识,而产生误导性的内容,导致公众对事件的认知错误,将可能导致社会舆论的混乱,甚至引发不必要的恐慌和危机。因此,对于大模型来说,在追求性能优化的同时,也必须充分考虑到道德伦理因素。只有在确保模型具备足够的道德伦理意识和判断力的情况下,才能应用于各个领域,为社会创造更大的价值。 中国大语言模型能力评析——行业能力细分行业 在政务板块,通义千问、360智脑等领衔第一梯队,超国际均值;百川智能、天工等构成第二梯队,超中国均值。各梯队大模型凭借技术实力、政务资源整合与场景定制,积极推动政务智能化进程 中国大模型行研能力评测分析——政务行业 完整版登录www.leadleo.com 搜索《2024年中国大语言模型能力评析(三):行业应用 能力评测结果》 专业知识储备 行业应用能力 道德伦理安全 商量天工 文心一言雅意 360智脑百川智能 通义千问MiniMax紫东太初腾讯混元 豆包 面壁露卡智谱AI国内均值 Moonshot(Kimi.ai)讯飞星火国际均值 在政务行业,中国大模型整体表现呈现明显梯队,通义千问、360智脑、腾讯混元、文心一言大模型处于第一梯队,超国际均值,商量、百川智能、天工、豆包大模型处于第二梯队,超过中国均值 在政务行业,大模型同