CAII* 中国工业互联网研究院 香港科技大摩新华新华指数 Xinhua-Indices ANDTECHNOLOGY 人工智能大模型在工业领域知识问答: 稳定性评测 中国工业互联网研究院香港科技大学 2023年9月 CAII+ 香港科技大燥 ANDTECHNOLO 前言UU 中国工业互联网研究院 新华新华指数 Xinhua-Indices 人工智能大模型作为实现通用人工智能的重要途径,正在对制造业的产业发展和应用模式产生变革性影响。近期中国工业互联网研究院联合香港科技大学、新华指数,共同研究A大模型在工业领域的应用性能、技术架构 与标准体系,开发布评测报告 工业领域对人工智能大模型的应用稳定性要求极高。人工智能大模型在工业领域应用的稳定性研究对于应用安全性保障、稳健性提升、可信赖性增强、决策优化以及合规性等方面都真有重要的指导意义。本报告聚焦评测大模型在工业领域的知识问答稳定性,通过选取工业领域典型的八大行业,构建基础知识测试集与变体测试集,对国内外具有代表性的A大模型在文法、数据、精简表达、扩充表达四大类八个子维度展开深入评估。选取性能前五名的模型进行公布,开发布前十名的数据,供业界进行参考 本报告评测结果虽经专家组认真论证,但因大模型送代速度快,评测结果仪适用于测试期间。报告难免存在分 析结论片面与不足欢迎大家批评指正 2 目录 CAI* 香港科技大票 中国工业互联网研究院 cninaAcademyorlndustnalinterne HEHON新华社新华指数 VERSITYOFSCIENCE ANDTECHNOLOGY XinhuaIndices 01第一部分评测规则 02第二部分评测结果 03第三部分总结 3 工业领域知识问答稳定性评测方法 CAII* 香港科技大屏 HEHONGKONG 中国工业互联网研究院 新华新华指数 稳定性定义: UNIVERSITYOFSCIENCE ANDTECHNOLOGY XinhuaIndices ■指人工智能大模型在工业知识问答领域,具备较高回答准确性能的前提下,针对一定参数扰动,维持某些性能特性的能力,即在非理想的工作环境或应用场景下也能够良好运行的能力 评测体系: 稳定性评测围绕AI大模型在数据、文法、精简表达、扩充表达四大类八个子维度展开深入评估。 数据稳定能力 数据量纲变化抗扰动能力数据量纲变体测试集VS原测试集 数据形式变化抗扰动能力数据形式变体测试集VS原测试集 文本同/近义变化抗扰动能力文本同/近义变体测试集VS原测试集 文法稳定能力文本顺序变化抗扰动能力文本顺序变体测试集VS原测试集 稳定性文本逻辑变化抗扰动能力文本逻辑变体测试集VS原测试集 上下文精简抗扰动能力信息精简变体测试集VS原测试集 精简表达稳定能力 安全守则精简抗扰动能力安全守则变体测试集VS原测试集 扩充表达稳定能力不相关内容扩充抗扰动能力内容扩充变体测试集VS原测试集 注:经调研及评测专家组认定,该评测体系符合4 工业领域知识问答稳定性评测方法 CA+ 中国工业互联网研究院 新华新华指数 ANDTECHNOLOGY CIENCE XinhuaIndice 评分标准:模型稳定性能力指数定义: ■原问题与对应变体问题进行对比测试,题型包含单稳定性能力指数=抗扰动能力指数算术平均值 选题和判断题;各测试维度各维度模型实际得分 ■所有进行变体对比的测试题应为模型测试回答准确抗扰动能力指数 x100 各维度模型理论最高得分 的测试题;各行业稳定性各行业模型实际得分 若变体与原问题回答一致时,得分(1分):若变 体与原问题回答不一致时,不得分(0分)。 综合能力指数 各行业模型理论最高得分 X100 稳定性测试流程: 输入原问题 选取准确能力大针对特定模型,基对特定模型进行 于一定标准于原问题与变体问 稳定性评估 的模型题进行对比测试 5 CAII* 工业领域知识问答稳定性评测数据集港科技大票 中国工业互联网研究院 HEHONGKCONG新华指数 NIVERSITY.OFSCIENCE 测试集 ANDTECHNOLOGY 电子设备制造业装备制造行业 电子器件、电子元件及电子专金属制品、通用设备制造、专用 用材料、其他电子元件制造等。设备制造、汽车制造等。 XinhuaIndices 采矿行业 OHO 钢铁行业 煤炭、石油、天然气、炼铁、炼钢、钢压延加工、 黑色金属、有色金属等。铁合金冶炼等。 电力行业石化化工行业 电力生产、电力供应、热力石油开采及加工、化学原料及化 生产和供应等。学制品制造、塑料制品、橡胶制 品等。 纺织行业根据OT经验,结合外部数据源建材行业 棉纺织、毛纺织、麻纺织、丝构建8大行业建筑材料及制品、非金属矿及 绢、化纤等纺织及印染精加工测试数据集。制品、无机非金属新材料等。 注:外部数据源主要来自于国家权威题库、互联网等,并经过专家组评审。6 专家组成员 CAI* 港科投大标 中国工业互联网研究院 hinaAcademyofIndustrialinterne HEHONGKONG新华指数 NIVERSITY.OFSCIENCE ANDTECHNOLOGY XinhuaIndices 唐立新,中国工程院刘云浩,ACMFellow张涛,IETFelloW,清 院士,IEEEFellow,IEEEFellow,长江学华大学教授,信息科 东北大学副校长,第者,ACM主席奖、学技术学院副院长, 十四届全国人大代表CCF王选奖获得者,自动化系系主任 工业智能与系统优化清华大学教授,创新 国家级前沿科学中心学院院长。 主任和首席科学家。 刘,IEEEFelloW,张大庆,欧洲科学院刘江川,加拿大工程 ACM杰出科学家,院士,IEEEFellow,院院士,IEEE 哈尔滨工业大学北京大学讲席教授,Fellow,加拿大西家 (深圳)讲席教授CCF普适计算专委会菲莎大学计算机学院 国际人工智能研究 主任。 正教授和大学杰出教 院院长。授。 7 专家团队 CAI* 香港科投大标 中国工业互联网研究院 HEHONGKONG新华指数 VERSITY.OFSCIENCE XinhuaIndices 张燕咏,IEEEFellow聂再清,清华大学国强杨铮,IEEEFellow,清 中国科学技术大学教授教授,AIR首席研究员华大学副教授、博士生导 计算机科学与技术学院微软学术搜索发起人师,国家万人计划。 副院长,ACM中国副主曾任微软自然语言理解 席。科技部下一代人工平台LUIS技术负责人。 智能重大项目负责人。 黄河燕,北京理工大学刘云新,清华大学国强佳亚,IEEEFellow,香 计算机学院教授,国家教授,智能产业研究院港中文大学终身教授,全 科学技术进步奖一等奖首席研究员,前微软亚球计算机视觉、人工智能 获得者。洲研究院主任研究员。领域权威专家,国家科技 国家重点研发计划项目部“新一代人工智能”重 负责人。大项目核心专家。 张晓明,北京雁栖湖应用数学研究院工业与应用首席研究员,美国麻省理工学院博士。 8 目录 CAI* 香港科技大票 中国工业互联网研究院 cninaAcademyorlndustnalinterne HEHON新华社新华指数 IVERSITYOFSCIENCE ANDTECHNOLOGY XinhuaIndices 01第一部分评测规则 02第二部分评测结果 03第三部分总结 9 工业领域知识问答稳定性评测结果 CA+中国工业互联网研究院 ChinaAcademyofIndustrialInternet 香港科技大萨 THEHONGKONG 新华市新华指数 100 通义大模型数据稳定能力指数 100 UNIVERSITYOFSCIENCE ANDTECHNOLOGY 大模型文法稳定能力指数 XinhuaIndices GPTGPTGPT 904 3.5从容 904 GPT 3.5 80**80360 星火大模型**星火智脑 70大模型70 ** 天工 大模型大模型 *** ** 60大模型★*60 ** 大模型大模型大模型 50大模型大模型50 4040 100 GPTGPT 大模型精简表达稳定能力指数 干间 通义 100 大模型语言扩充表达稳定能力指数 9043.5 80 360 智脑 ** 星火: ★**** GPT 064 08 GPT 3.5 天工星火 通义 ★* 干间大模型** 大模型大模型 7070+* 大模型大模型 6060 5050大模型 4040 10 userid:414195,docid:140743,date:2023-09-18,sgpjbg.com 港科技大 工业领域知识问答稳定性评测结果CAII* 中国工业互联网研究院 HEHONGKONG新华指数 UNIVERSITYOFSCIENCE ANDTECHNOLOGY 四大能力维度稳定性八大细分能力维度稳定性行业维度稳定性 XinhuaIndices 文法稳定语义理解 电子设备制造业 100 84,86 10094,9510088,91 75 不相关信息顺序变化纺织行业装备制造业 5082.72 83,9568.9676,7879,80 50 50 55,74 80,83 2546,782545,6447,742552,82 60,8845,70 扩充表达稳定46,7847,89数据稳定上下文0逻辑判断建材行业60,68042,80钢铁行业 83,8585,8790,9183,86 77,8081,81 59,8560,7637,6850,76 87,89 精简表达稳定 安全指令 84,87 量纲83,86 88.89数值石化化工行业 81,83 电力行业 80,81采矿行业 国内大模型能力区间GPT4GPT3.5 总体来看: 从能力维度,国内大模型与国外头部大模型在数据稳定、精简表达、扩充表达能力差距较小,在文法稳定方面 存在一定差距: 从行业应用,国内大模型与国外在钢铁、采矿、装备制造等方面应用差距较小,其他行业具有较大提升空间 11 数据稳定能力 CAII* 港科技大票 HEHONGKONG 中国工业互联网研究院 新华新华指数 UNIVERSITYOFSCIENCE NDTECHNOLOGYXinhuaIndices 数据稳定能力指大模型在工业应用中涉及数据形式或数据量纲变化的输出稳定性 100 1.数据形式扰动 工业场景的潜在应用 通义GPT大模型数据稳定能力指数 90千间GPT 3.5从容 产品1生产日期产品2生产日期80星火** 大模型 检查:正确检查:正确大模型** 70 产品1产品260大模型 二O二三年2023年8月 捌月生产生产 50大模型大模型 ot 整体看,国内外头部大模型能力接近90分:说明大模型在数据上 稳定性较高; 2.数据量纲扰动 目 测量结果1为2cm, 测量结果2为20mm对比看,国内头部大模型基于中文语境优势,数据能力已实现超 两次测量结果一致 越:国内尾部大模型能力低于50分,表现具有较大提升空间: 供给角度看,国内尾部大模型需要引入训练语料、知识库、工具 函数集等,对数据进行专门强化: 应用角度看,鼓励工业企业将大模型应用于数据处理,但需要进行结果校验,尤其是对数据单位要进行多重描述,防止理解偏差 12 数据稳定能力一数据形式抗扰动 CAII* 港科技大票 中国工业互联网研究院 HON新华指数 ERSITY.OFSCIENCE 大模型对工业领域不同数值的数据形式的回答稳定性。 ANDTECHNOLOGY XinhuaIndices 100 90 数据形式抗扰动能力测试样例: 原提问:分度头的主轴轴心线能相对于工作台平面向上 )和向下10° 80平均值:76A.10°B、45°C、90°D、120° 70扰动提问:分度头的主轴轴心线能相对于工作台平面向上 60)和向下10° 50A.10.0°B、45.0°C、90°D、120° 40注:数据形式变化测试变体涉及“有效数字”、“百分比”和“科学计 算法”等