CAIl*中国工业互联网研究院 通用人工智能大模型 工业领域知识问答性能评估 中国工业互联网研究院 2023年6月 前言 CAI中国工业互联网研究院 人工智能大模型作为实现通用人工智能的重要途径,正在对互联网的关键技术、架构体系、产业发展、应用模式产生变革性影响。近期,在工业和信息化部科技司的指导下,中国工业互联网研究院依托通用人工智能与工业融合创新中心(筹备组,简称“中心”)深入研究人工智能大模型在工业领域的应用性能、技术架构、标准 体系。 本报告聚焦评测人工智能大模型在中文工业领域的知识问答能力,通过选取工业领域典型的八大行业,构建知 识测试集,对国内外具有代表性的若干大模型进行评测,选取性能前六名的模型进行公布,并发布前十名的数据, 供业界进行参考。 本报告评测结果虽经中心专家委认真论证,但因大模型送代速度快,评测结果仅适用于测试期间。报告难免存 在分析结论片面与不足,欢迎大家批评指正 2 目录CAIl* 01第一部分评测规则 02第二部分测评结果 03第三部分总结与下一步计划 中国工业互联网研究院 3 √工业领域知识问答评测方法 测试范围:选取工业领域八大行业,按行业构建行业知识测试集 01电子设备制造业:网络设备调试工、电子设备装接工、半导体芯片制造工等 02装备制造业:铸造工、磨工、钳工等 03钢铁行业:炼铁工、锅炉检修工、金属轧制工等。 工联院根据工业04采矿行业:地质工、钻井工、采油工等。 经验,结合外部 数据源,构建测05电力行业:输电线路工、发电机检修工、变电设备检修工等。 试数据集06石化化工行业:油品储运工、催化裂解工、原油蒸馏工等。 07建材行业:玻璃加工工、水泥烧工、混凝土工等 08纺织行业:纺织工、染整工、染色工等。 注:外部数据源主要来自于国家权威题库、互联网等,并经过专家组评审。4 √工业领域知识问答评测方法CAI中国工业互联网研究院 ,综合评价指数分值分布·评分标准 每个行业抽取:客观题:单选题和判断题 ·单选题(105题):答对得分,答错不得分。 ·判断题(30题)主观题:简答题(4个维度,每个维度5分) ·简答题(3题),基础能力:完全符合题意5分、符合题意4分、基本符合题意3 判断题分值分布分、偏离题自2分、回答不相关1分 10% 简答题 20% 单选题 :语包能力:语包通顺且流畅5分、语包通顺4分、语言基本通 顺3分、语言不通顺2分、存在病句1分 ·概括能力:言简意中心明确5分、中心明确4分、中心基本 明确3分、中心不明确2分、废话连篇啰嗪1分 70%·逻辑能力:条理非常清楚5分、条理清楚4分、条理基本清楚3 综合评价指数得分:分、逻辑较为混乱2分、前后文无逻辑关系1分。 将每个行业得分归一化处理,回归100分制。注:1.主观题评价标准部分参考高考作文评分标准: 注:本测试一共约1100道题。2.主观题由专家组成评审委员会,针对大模型的回答举行集中评审 3.本研究仅针对公开通用大模型进行直接测评,对微调后的模型不做评价。 专家团队CAll+ 中国工业互联网研究院 ChinaAcademyofIndustri 唐立新,中国工程院 王国栋,中国工程院 刘云浩,ACM 院士,IEEEFelloW,院士,钢铁行业专家,FelloW,IEEEFellow, 东北大学副校长,第博士生导师。长江学者,清华大学 十四届全国人大代表教授,创新学院院长。 工业智能与系统优化国家级前沿科学中心主任和首席科学家。 焦礼成,欧洲科学张大庆,欧洲科学院刘江川,加拿大工程 院、俄罗斯自然科院士,IEEEFelloW,院院士,IEEE 学院外籍院士|北京大学讲席教授,Fellow,加拿大西 IEEEFelloW,西安CCF普适计算专委会蒙菲莎大学计算机学 电子科技大学华山主任。院正教授和大学杰出 学者杰出教授,计教授。 算机科学与技术学 部主任。 6 专家团队CAll+ 中国工业互联网研究院 刘劫,IEEEFelloW,张燕咏,IEEEFelloW,杨铮,IEEEFelloW,清 ACM杰出科学家中科大教授,计算机科华大学副教授、博士生导 哈尔滨工业大学(深圳)学与技术学院副院长,师,国家万人计划。 讲席教授,国际人工智ACM中国副主席。 能研究院院长。 刘云新,清华大学国强张晓明,北京雁栖湖应黄河燕,北京理工大学 教授,智能产业研究院用数学研究院工业与应计算机学院教授,国家 首席研究员,国家重点用首席研究员,美国麻科学技术进步奖一等奖 研发计划项目负责人。省理工学院博士。获得者。 王帅,香港科技大学计算机系助理教授,博士生导师,谷歌学者。 目录CAIl* 01第一部分背景介绍 02第二部分测评结果 03第三部分总结与下一步计划 中国工业互联网研究院 8 工业领域知识问答评测结果CAll* 中国工业互联网研究院 注:总分100各类大模型在工业领域知识问答测评TOP6 工标准差 70国外大模型 国内大模型 60 50 综合评价指数 40 30 从模型维度来看: GPT4 GPT4在工业知识问答测试中表现最佳; 国内头部大模型表现亮眼,整体与GPT3.5相当,多措并举或可实现赶超 注:国图中提及大模型测试版本号分别为GPT4(gpt-4-0314)、GPT3.5(gpt-3.5-turbo-0301)、文心一言(2.0.3版)、ChatGLM(130B-v0.8版)360智脑(beta-2.0.0版)、天工大模型(3.5.20230601.a版)。 工业领域知识问答评测结果 CAll* 中国工业互联网研究院 注:总分100各类大模型在工业领域知识问答测评TOP6 90■电子设备制造业■装备制造业 ■钢铁行业■采矿行业 ■电力行业石化化工行业 60建材行业纺织行业 30 综合评价指数 PT4GPT3.5文心一言ChatGLM360智脑天工大模 76.8 62.9 69.5 62.2 59.9 55.5 71.9 52.4 65.8 54.9 60.3 53.9 62.3 57.7 66.9 56.6 47.3 50.6 62.2 50.8 53.6 44.7 50.3 44.2 49.7 52.6 64.0 56.3 43.8 54.6 0 G 电子设备制造业 装备制造业钢铁行业采矿行业电力行业 型**大模型**大模型**大模型**大模型 石化化工行业 65.8 55.2 58.1 50.4 54.0 51.4 建材行业 52.2 50.5 56.4 51.8 49.7 44.4 纺织行业 57.7 47.3 49.3 50.8 48.8 45.6 10 工业领域知识问答评测结果CAll* 注:总分100各行业下大模型知识问答测评TOP6标准差 中国工业互联网研究院 70评价指数靠前行业 评价指数靠后行业 60 50 综合评价指数 40 30 电子设备制造业装备制造业钢铁行业采矿行业电力行业石化化工行业建材行业纺织行业 从行业维度看: 大模型在八个行业知识问答能力差异明显,个别行业需进一步优化提升。其中,电子、装备行业评价指数 较高,纺织、采矿行业综合评价指数相对较低。 11 工业领域知识问答评测结果 各行业下大模型知识问答测评TOP6 100电子设备制造业100装备制造业 CAll* 中国工业互联网研究院 8080 4 综合评价指数20 60 40 综合评价指数20 00 GPT4 Ch 100 80 钢铁行业 100 80 采矿行业 6060 40 综合评价指数 综合评价指数20 00 文心 C 注:图中提及的GPT4、GPT3.5、文心一言、ChatGLM、360智脑、天工大模型测试版本号与上文一致,星火大模型版本:1.5.0版,商汤大模型版本 2.9.0版,从容大模型版本:20230609版。12 工业领域知识问答评测结果CAIl* 各行业下大模型知识问答测评TOP6 100电力行业100石化化工行业 80 80 60 60 4 综合评价指数 20 综合评价指数 20 0 文心 100建材行业100纺织行业 中国工业互联网研究院 0880 6060 4040 20 20 综合评价指数综合评价指数 00 文心 注:图中提及大模型测试版本号与上文一致。13 工业领域知识问答评测结果一客观题 CAll* 中国工业互联网研究院 不同模型客观题测评准确率不同模型客观题测评结果标准差 70%注:选择题与判断题10注:选择题与判断题 55%8 6 40% A 客观题准确率 25% 10% M 文心360 客观题标准差 从模型维度来看 工业知识问答客观题环节,大模型普遍准确率有较大的提升空间,GPT4与文心一言表现相对较好。 准确率越高的大模型在工业知识问答标准差越大,表明模型的泛化能力需要加强 注:图中提及大模型测试版本号与上文一致。14 工业领域知识问答评测结果一客观题 CAIl* 中国工业互联网研究院 不同工业领域大模型客观题测评准确率不同工业领域大模型客观题测评结果标准差 70%注:选择题与判断题10注:选择题与判断题 55%8 6 40% 客观题准确率 25% 10% 业电力石行化业化工行业 A 纺织行 客观题标准差N 0 业 行业石化化工建行业材行纺业织行业 电力行业 装备告装备制 电子设备制造业 从行业维度看 大模型在不同行业客观题回答准确度差异明显。其中,电子与装备行业较高,纺织与采矿行业较低。需进 步丰富相关专业领域的数据训练集。 15 工业领域知识问答评测结果一主观题 注:简答题分为四个维度,每个维度5分。 CAIl* 中国工业互联网研究院 5a.基础能力 5b.语句能力 GPTGPT文心Chat 360 GPTChat 文心43.5言GLM智脑天工 4GLM天工 3 GPT 3.5 商汤** *k***★3 5c.概括能力d.逻辑能力 GPT 文心Chat GPT文心 4言 GPT Chat GLM GPT3.5GLM 天工星火 3.5 3 商汤星火** 从模型维度看: 国内大模型的基础能力、语句能力与GPT4接近;概括能力、逻辑能力与GPT4有一定差距。国内大模型 需进一步进行专业化的微调 注:1.主观题虽由专家评定,但结果不可避免存在一定主观性; 2.图中提及大模型测试版本与上文一致16 工业领域知识问答评测结果一主观题 注:简答题分为四个维度,每个维度5分。 CAll* 中国工业互联网研究院 5a.基础能力 电子 5b.语句能力 电子装备石化 设备装备 采矿电力石化 纺织设备制造钢铁采矿电力化工纺织 3平均值 制造钢铁化工建材 平均值 c.概括能力d.逻辑能力 电子装备电力石化电子装备石化 设备 平均值 3 制造钢铁采矿化工建材纺织设备制造钢铁采矿电力 化工建材纺织 从行业维度看: 大模型在不同行业中的基础能力、概括能力、逻辑能力差异较小。其中,建材行业语句能力偏低(答题是 否语包通顺),需扩展相关专业领域的数据训练集 注:主观题虽由专家评定,但结果不可避免存在一定主观性17 大模型自我认知能力CAI* ,大模型对自我知识盲区的鉴别能力 注:统计针对测试题提问,模型主动反馈无法回答的数量与答错的数量。 中国工业互联网研究院 16% 大模型自我认知能力 样例: 12.86%提问:运行中的DB-45型绝缘油的闪点应不比新油 12%主动表达无法回答的数量标准降低() 能力系数= 8% 答错的数量+无法回答的数量 A.3℃CB.5°CC.7°CD.9°℃ 5.38%回答:对不起,我不能为你提供准确的答案,因为 4%我无法找到具体关于"DB-45型绝缘油的信息。在 1.48% 0% 0.73%0.69%0.51%0.49%0.18%0.14% 我的训练数据中,我没有找到与该特定类型的油相 关的任何信息 A GPT4相比于其它大模型具有更高的自我认知能力,但未正确回答的测试题中,仅有13%的问题能实现能力缺 陷自主识别。因此,一方面大模型需继续扩充训练数据,另一方面需