您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国工业互联网研究院]:通用人工智能大模型工业领域知识问答性能 - 发现报告

通用人工智能大模型工业领域知识问答性能

通用人工智能大模型工业领域知识问答性能

中国工业互联网研究院 2023年6月 前言 人工智能大模型作为实现通用人工智能的重要途径,正在对互联网的关键技术、架构体系、产业发展、应用模式产生变革性影响。近期,在工业和信息化部科技司的指导下,中国工业互联网研究院依托通用人工智能与工业融合创新中心(筹备组,简称“中心”)深入研究人工智能大模型在工业领域的应用性能、技术架构、标准体系。 本报告聚焦评测人工智能大模型在中文工业领域的知识问答能力,通过选取工业领域典型的八大行业,构建知识测试集,对国内外具有代表性的若干大模型进行评测,选取性能前六名的模型进行公布,并发布前十名的数据,供业界进行参考。 本报告评测结果虽经中心专家委认真论证,但因大模型送代速度快,评测结果仅适用于测试期间。报告难免存在分析结论片面与不足,欢迎大家批评指正 目录 01第一部分评测规则 02第二部分测评结果 03第三部分总结与下一步计划 √工业领域知识问答评测方法 测试范围:选取工业领域八大行业,按行业构建行业知识测试集 01电子设备制造业:网络设备调试工、电子设备装接工、半导体芯片制造工等 02装备制造业:铸造工、磨工、钳工等 03钢铁行业:炼铁工、锅炉检修工、金属轧制工等。 工联院根据工业经验,结合外部数据源,构建测试数据集 04采矿行业:地质工、钻井工、采油工等。 05电力行业:输电线路工、发电机检修工、变电设备检修工等。 06石化化工行业:油品储运工、催化裂解工、原油蒸馏工等。 07建材行业:玻璃加工工、水泥烧工、混凝土工等 08纺织行业:纺织工、染整工、染色工等。 注:外部数据源主要来自于国家权威题库、互联网等,并经过专家组评审。 √工业领域知识问答评测方法 ,综合评价指数分值分布 ·评分标准 客观题:单选题和判断题 每个行业抽取: ·单选题(105题)·判断题(30题)·简答题(3题) :答对得分,答错不得分。主观题:简答题(4个维度,每个维度5分) ,基础能力:完全符合题意5分、符合题意4分、基本符合题意3分、偏离题自2分、回答不相关1分 :语包能力:语包通顺且流畅5分、语包通顺4分、语言基本通顺3分、语言不通顺2分、存在病句1分 ·概括能力:言简意中心明确5分、中心明确4分、中心基本明确3分、中心不明确2分、废话连篇啰嗪1分 ·逻辑能力:条理非常清楚5分、条理清楚4分、条理基本清楚3分、逻辑较为混乱2分、前后文无逻辑关系1分。 综合评价指数得分: 将每个行业得分归一化处理,回归100分制。 注:1.主观题评价标准部分参考高考作文评分标准:2.主观题由专家组成评审委员会,针对大模型的回答举行集中评审3.本研究仅针对公开通用大模型进行直接测评,对微调后的模型不做评价。 注:本测试一共约1100道题。 专家团队 唐立新,中国工程院院士,IEEE FelloW,东北大学副校长,第十四届全国人大代表工业智能与系统优化国家级前沿科学中心主任和首席科学家。 刘云浩,ACMFelloW, IEEE Fellow,长江学者,清华大学教授,创新学院院长。 王国栋,中国工程院院士,钢铁行业专家,博士生导师。 焦礼成,欧洲科学院、俄罗斯自然科学院外籍院士IEEE FelloW,西安电子科技大学华山学者杰出教授,计算机科学与技术学部主任。 张大庆,欧洲科学院院士,IEEE FelloW,|北京大学讲席教授,CCF普适计算专委会主任。 刘江川,加拿大工程院院士,IEEEFellow,加拿大西蒙菲莎大学计算机学院正教授和大学杰出教授。 专家团队 张燕咏,IEEE FelloW,中科大教授,计算机科学与技术学院副院长,ACM中国副主席。 刘劫,IEEE FelloW,ACM杰出科学家哈尔滨工业大学 (深圳)讲席教授,国际人工智能研究院院长。 杨铮,IEEE FelloW,清华大学副教授、博士生导师,国家万人计划。 张晓明,北京雁栖湖应用数学研究院工业与应用首席研究员,美国麻省理工学院博士。 刘云新,清华大学国强教授,智能产业研究院首席研究员,国家重点研发计划项目负责人。 黄河燕,北京理工大学计算机学院教授,国家科学技术进步奖一等奖获得者。 王帅,香港科技大学计算机系助理教授,博士生导师,谷歌学者。 目录 01第一部分背景介绍 02第二部分测评结果 03第三部分总结与下一步计划 工业领域知识问答评测结果 从模型维度来看: GPT4在工业知识问答测试中表现最佳;国内头部大模型表现亮眼,整体与GPT3.5相当,多措并举或可实现赶超 注:国图中提及大模型测试版本号分别为GPT4(gpt-4-0314)、GPT3.5(gpt-3.5-turbo-0301)、文心一言(2.0.3版)、ChatGLM(130B-v0.8版)360智脑(beta-2.0.0版)、天工大模型(3.5.20230601.a版)。 工业领域知识问答评测结果 工业领域知识问答评测结果 从行业维度看:大模型在八个行业知识问答能力差异明显,个别行业需进一步优化提升。其中,电子、装备行业评价指数 较高,纺织、采矿行业综合评价指数相对较低。 工业领域知识问答评测结果 工业领域知识问答评测结果 注:图中提及大模型测试版本号与上文一致。 工业领域知识问答评测结果一客观题 从模型维度来看工业知识问答客观题环节,大模型普遍准确率有较大的提升空间,GPT4与文心一言表现相对较好。 准确率越高的大模型在工业知识问答标准差越大,表明模型的泛化能力需要加强 工业领域知识问答评测结果一客观题 从行业维度看大模型在不同行业客观题回答准确度差异明显。其中,电子与装备行业较高,纺织与采矿行业较低。 需进步丰富相关专业领域的数据训练集。 工业领域知识问答评测结果一主观题 注:简答题分为四个维度,每个维度5分。 从模型维度看:国内大模型的基础能力、语句能力与GPT4接近;概括能力、逻辑能力与GPT4有一定差距。 国内大模型需进一步进行专业化的微调 注:1.主观题虽由专家评定,但结果不可避免存在一定主观性;2.图中提及大模型测试版本与上文一致 工业领域知识问答评测结果一主观题 注:简答题分为四个维度,每个维度5分。 从行业维度看:大模型在不同行业中的基础能力、概括能力、逻辑能力差异较小。其中,建材行业语句能力偏低(答题是 否语包通顺),需扩展相关专业领域的数据训练集 注:主观题虽由专家评定,但结果不可避免存在一定主观性 大模型自我认知能力 ,大模型对自我知识盲区的鉴别能力 注:统计针对测试题提问,模型主动反馈无法回答的数量与答错的数量。 样例: 提问:运行中的DB-45型绝缘油的闪点应不比新油标准降低() A.3℃C B.5°C C.7°C D.9°℃ 回答:对不起,我不能为你提供准确的答案,因为我无法找到具体关于"DB-45型绝缘油的信息。在我的训练数据中,我没有找到与该特定类型的油相关的任何信息 GPT4相比于其它大模型具有更高的自我认知能力,但未正确回答的测试题中,仅有13%的问题能实现能力缺陷自主识别。因此,一方面大模型需继续扩充训练数据,另一方面需优化设计原则和训练策略,面对已无法提供准确答案的问题时,需选择明确地表达自己的能力限制,而不是提供可能误导用户的答案。 注:图中提及大模型测试版本号与上文一致。 大模型对污染问题分析能力 ·不同模型对输入内容的合理性判定 样例: 注:设置污染问题(内容不符合常理),统计模型识别输入内容不合理的数量。大模型对污染问题分析能力 污染问题:普通飞机工作在OSI模型的)层 A.物理B.数据链路C.网络D.传输 GPT4:在计算机网络中,OSI模型是一种概念模型,它描述了不同的网络协议如何在网络中协同工作以完成数据传输。这个模型由七层构成,从低到高分别为:物理层、数据链路层网络层、传输层、会话层、表示层、应用层。但是,将OSI模型与飞机的工作进行关联有些困难,因为飞机作为一个物理设备,其主要工作是进行飞行。如果你是指飞机上的通信系统比如飞机的无线电通信系统,那么这种系统通常工作在OS模型的物理层(A选项)和数据链路层(B选项)。因为这些层负责处理信号传输和数据顿的封装与解析。 某模型A:答案是D。传输层主要功能是提供端到端的可靠数据传输服务,包括错误检测和纠正、流量控制、拥塞控制和连接管理等。因此普通飞机工作在OSI模型的传输层。 在污染问题环节,GPT4表现出较强知识合理性辨别能力,可实现对违背常理的文字进行准确判定,并能够识别出大部分问题的逻辑误。该方面国内大模型普遍性能较弱,建议加强对输入内容合理性判定 注:图中提及大模型测试版本号与上文一致。 目录 01第一部分背景介绍 02第二部分测评结果 03第三部分总结与下一步计划 总结与下一步计划 客观题结果分析 ·国内外大模型平均准确率普遍不高,提升空间巨大;大模型在处理不同工业知识问答时,表现出较大差异,行业间泛化能力有待加强;互联网信息量较小的行业(如纺织、采矿等):大模型知识问答能力较弱,缺芝该行业针对性训练和微调。 主观题结果分析: ●部分大模型的基础能力、语句能力与GPT4比较接近:概括能力与逻辑能力与GPT4有一定差距不同行业,知识向答基础能力(答题是否符合题意)差异较大,钢铁、建材行业较低,概括能力和逻辑能力差异较小。 综合结论: ·当前,通用大模型在工业知识问答领域探索处于初级阶段,GPT4仍然是最高水平; ·国内大模型整体水平与GPT3.5持平,头部梯队表现优异,已在部分行业实现赶超。 总结与下一步计划 发现: ●在自我认知能力上,GPT4能主动承认无法准确回答的问题,国内大模型一方面需继续扩充训练数据,另一方面需优化设计原则和训练策略 在污染问题分析能力上,GPT4表现出较强的辨别能力,基本能对违背常理的污染问题进行判定,该方面国内大模型普遍性能较弱,建议加强对输入内容合理性判定。 下一步计划: ●我们将持续开展通用人工智能大模型在工业领域更多维度的性能测评,包括但不限于大模型的鲁棒性、安全性、人类价值观等。期待与产学研用金各界合作。 注:本研究实测模型包括但不限于上述大模型。此处只列举部分效果优异的模型链接。 附录:工业领域知识问答测试题示例 测试题型由客观题与主观题组成 客观题: ·选择题 并联谐振又叫做()。 A、电流谐振B、电压谐振C、耦合谐振D、复谐振 ·判断题 判断以下论述是否正确:计算机监控系统控制级别由高到低顺序为:就地控制站控层控制、远程控制,三种级别间应相互闭锁,同一时刻只充许一级控制。 主观题: ·简答题 影响载流体接头接触电阻的主要因素是什么? 附录:问答主观题分析一基础能力 问答题: 提问(电力行业):真空断路器有哪些特点? 模型A: 模型B: 回答:真空断路器是一种高压开关设备,它的特点是触头开距小,燃弧时间短,且与开关电流大小无关。真空断路器的灭弧介质是真空,因此在操作过程中不会形成电弧,也不容易被电弧点燃。此外,真空断路器的触头材料耐磨性高,操作简单方便,机械寿命时间长。它们还具有良好的绝缘性能和灭弧性能,可以在高压下正常运行。 回答:真空断路器具有如下特点 1.高压开关:适用于高电压系统2.高频操作:可实现快速操作,提高供电可靠性;3.绝缘性能优良:采用真空作为隔离介质,具有较高的绝缘性能;4.动作灵活:可频繁开关,具有较好的灵活性;5.易于维护:操作简单,无需大量维修费用。 模型A按照题自要求,准确回答出真空断路器的关键特点,基础能力更佳。 模型B基本按照题目要求回答部分特点,但未回答真空断路器的关键特点,基础能力需进一步提高。 附录:问答主观题分析一概括能力 问答题: 提问(纺织行业):请简要陈述分散印花的工艺流程是什么: 模型A: 模型B: 回答:分散印花是一种常用的纺织品印染工艺,用于在织物上实现多彩图案的印刷。下面是分散印花的基本工艺