行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2023人工智能大模型在工业领域知识问答稳定性评测报告

信息技术 2023-09-18 中国工业互联网研究院起风了

找报告就上发现报告（www.fxbaogao.com），这是一个资源超级丰富的专业平台。我们的用户群体庞大，深受投资者信赖。研报内容覆盖面极广，宏观、行业、公司报告应有尽有，数量巨大。我们专注于提升您的效率，界面简单好用，技术强大，帮您迅速获取关键信息。在这里，您可以深度洞察市场，做出最精准的投资判断。

中国工业互联网研究院CAII+工业领域知识问答稳定性评测报告本报告对中国工业互联网研究院、香港科技大学和新华指数共同研究的A大模型在工业领域的应用性能、技术架构与标准体系进行了评测。报告选取了工业领域典型的八大行业，构建基础知识测试集与变体测试集，对国内外具有代表性的A大模型在文法、数据、精简表达、扩充表达四大类八个子维度进行了深入评估。评测结果表明，经过专家论证，该评测体系符合相关要求，但评测结果仅适用于测试期间，可能存在不足之处。本报告共分为三个部分：第一部分介绍了评测规则；第二部分列出了评测结果；第三部分进行了总结。在评测规则部分，报告介绍了评测体系的定义、评测方法和评分标准。其中，评测体系围绕AI大模型在数据、文法、精简表达、扩充表达四大类八个子维度展开深入评估；评测方法包括稳定性评测，评估AI大模型在工业知识问答领域具备较高回答准确性能的前提下，针对一定参数扰动，维持某些性能特性的能力；评分标准包括模型稳定性能力指数，定义了原问题与对应变体问题进行对比测试，题型包含单稳定性能力指数和综合能力指数，各测试维度的模型实际得分与理论最高得分进行对比。在评测结果部分，报告列出了稳定性测试的流程和测试集，包括选取准确能力大针对特定模型，基对特定模型进行输入原问题于一定标准于原问题与变体问的模型稳定性评估题进行对比测试。同时，报告还列出了选取的八大行业，包括电子设备制造业、装备制造行业、电子器件、电子元件及电子专用材料、其他电子元件制造等。在总结部分，报告指出，本报告对中国工业互联网研究院、香港科技大学和新华指数共同研究的A大模型在工业领域的应用性能、技术架构与标准体系进行了评测，评估结果表明，该评测体系符合相关要求，但评测结果仅适用于测试期间，可能存在不足之处。同时，报告还提出了未来需要进一步研究的问题和方向，以提高AI大模型在工业领域的应用性能和稳定性。

中国工业互联网研究院香港科技大学 2023年9月前言人工智能大模型作为实现通用人工智能的重要途径，正在对制造业的产业发展和应用模式产生变革性影响。近期中国工业互联网研究院联合香港科技大学、新华指数，共同研究A大模型在工业领域的应用性能、技术架构与标准体系，开发布评测报告工业领域对人工智能大模型的应用稳定性要求极高。人工智能大模型在工业领域应用的稳定性研究对于应用安全性保障、稳健性提升、可信赖性增强、决策优化以及合规性等方面都真有重要的指导意义。本报告聚焦评测大模型在工业领域的知识问答稳定性，通过选取工业领域典型的八大行业，构建基础知识测试集与变体测试集，对国内外具有代表性的A大模型在文法、数据、精简表达、扩充表达四大类八个子维度展开深入评估。选取性能前五名的模型进行公布，开发布前十名的数据，供业界进行参考本报告评测结果虽经专家组认真论证，但因大模型送代速度快，评测结果仪适用于测试期间。报告难免存在分析结论片面与不足欢迎大家批评指正目录 01第一部分评测规则 02第二部分评测结果 03第三部分总结工业领域知识问答稳定性评测方法稳定性定义： ■指人工智能大模型在工业知识问答领域，具备较高回答准确性能的前提下，针对一定参数扰动，维持某些性能特性的能力，即在非理想的工作环境或应用场景下也能够良好运行的能力评测体系：稳定性评测围绕AI大模型在数据、文法、精简表达、扩充表达四大类八个子维度展开深入评估。注：经调研及评测专家组认定，该评测体系符合工业领域知识问答稳定性评测方法评分标准：模型稳定性能力指数定义： ■原问题与对应变体问题进行对比测试，题型包含单选题和判断题；■所有进行变体对比的测试题应为模型测试回答准确的测试题；若变体与原问题回答一致时，得分（1分）：若变体与原问题回答不一致时，不得分（0分）。工业领域知识问答稳定性评测数据集测试集专家组成员唐立新，中国工程院院士，IEEEFellow，东北大学副校长，第十四届全国人大代表工业智能与系统优化国家级前沿科学中心主任和首席科学家。刘云浩，ACMFellowIEEEFellow，长江学者，ACM主席奖、CCF王选奖获得者，清华大学教授，创新学院院长。张涛，IETFelloW，清华大学教授，信息科学技术学院副院长，自动化系系主任张大庆，欧洲科学院院士，IEEEFellow,北京大学讲席教授，CCF普适计算专委会主任。刘江川，加拿大工程院院士，IEEEFellow，加拿大西家菲莎大学计算机学院正教授和大学杰出教授。刘，IEEEFelloW，ACM杰出科学家，哈尔滨工业大学（深圳）讲席教授国际人工智能研究院院长。专家团队张燕咏，IEEEFellow中国科学技术大学教授计算机科学与技术学院副院长，ACM中国副主席。科技部下一代人工智能重大项目负责人。聂再清，清华大学国强教授，AIR首席研究员微软学术搜索发起人曾任微软自然语言理解平台LUIS技术负责人。杨铮，IEEEFellow，清华大学副教授、博士生导师，国家万人计划。佳亚，IEEEFellow，香港中文大学终身教授，全球计算机视觉、人工智能领域权威专家，国家科技部“新一代人工智能”重大项目核心专家。刘云新，清华大学国强教授，智能产业研究院首席研究员，前微软亚洲研究院主任研究员。国家重点研发计划项目负责人。黄河燕，北京理工大学计算机学院教授，国家科学技术进步奖一等奖获得者。张晓明，北京雁栖湖应用数学研究院工业与应用首席研究员，美国麻省理工学院博士。目录 01第一部分评测规则 02第二部分评测结果 03第三部分总结工业领域知识问答稳定性评测结果工业领域知识问答稳定性评测结果总体来看：从能力维度，国内大模型与国外头部大模型在数据稳定、精简表达、扩充表达能力差距较小，在文法稳定方面存在一定差距：从行业应用，国内大模型与国外在钢铁、采矿、装备制造等方面应用差距较小，其他行业具有较大提升空间数据稳定能力数据稳定能力指大模型在工业应用中涉及数据形式或数据量纲变化的输出稳定性整体看，国内外头部大模型能力接近90分：说明大模型在数据上稳定性较高；对比看，国内头部大模型基于中文语境优势，数据能力已实现超越：国内尾部大模型能力低于50分，表现具有较大提升空间：供给角度看，国内尾部大模型需要引入训练语料、知识库、工具函数集等，对数据进行专门强化：应用角度看，鼓励工业企业将大模型应用于数据处理，但需要进行结果校验，尤其是对数据单位要进行多重描述，防止理解偏差数据稳定能力一数据形式抗扰动大模型对工业领域不同数值的数据形式的回答稳定性。测试样例：原提问：分度头的主轴轴心线能相对于工作台平面向上）和向下10° A.10°B、45°C、90°D、120° 扰动提问：分度头的主轴轴心线能相对于工作台平面向上）和向下10° A.10.0°B、45.0°C、90°D、120° 注：数据形式变化测试变体涉及“有效数字”、“百分比”和“科学计算法”等形式变化。对于数据形式抗扰动能力，GPT-4表现最佳，当前国内外头部梯队大模型差距较小，国内大模型间存在一定差距从模型供应商角度看，尾部模型需对数据形式稳定性进行专门优化，可通过数据预处理或引入工具函数集等方式强化数据稳定能力：从工业企业角度看，在应用大模型时，对于数据密集型任务，需使用数据形式稳定性较高的大模型数据稳定能力一数据量纲抗扰动大模型对工业领域不同数值数据量纲的回答稳定性测试样例：原提问：在220kV带电区域中的非带电设备上检修时工作人员正常活动范围与带电设备的安全距离应大于（）A0.35mB、0.6mC、1.5mD、3.0m 扰动提问：在220kV带电区域中的非带电设备上检修时，工作人员正常活动范围与带电设备的安全距离应大于（）。A0.35mB0.6mC、1.5mD、300cm 对手于数据量纲的变化，国内头部大模型的稳定性已实现赶超，大模型间能力表现差距明显：从供应商角度看，尾部模型供应商需针对量纲进行专项优化，对问题中数据进行预处理对于工业企业，便用大模型时应关注数据量纲抗扰动能力，尽量保持量纲的一致性，或同步文字或字母描述二、文法稳定能力指大模型在工业应用中涉及文本内容或逻辑变化的输出稳定性整体看，GPT-3.5/4在85分以上，在文法上稳定性较高对比看，国内外大模型的文法稳定能力差距较大，GPT3.5/4优势明显，国内大模型具有较大追赶空间供给角度看，国内大模型在同/近义词的稳定性较强，对逻辑变化和对顺序变化的稳定性需要进一步提升，说明国内大模型的对问题的理解能力还有待加强，需针对性进行优化应用角度看，工业企业对于文字简单处理的应用建议尝试使用大模型，如文献整理和收集，但对逻辑密集型的应用需谨慎使用文法稳定能力一同/近义抗扰动指大模型对工业领域相关词汇表达同义或近义的回答稳定性测试样例：原提问：在计算机通信中，传输的是信号，把直接由计算机产生的数字信号进行传输的方式为（）传输。 A.基带B.宽带C.调制D.解调扰动提问：在计算机通信中，发送的是信号，把直接由计算机产生的数字信号进行发送的方式为（）发送。 A.基带B.宽带C.调制D.解调对于同/近义变化，当前国内外头部梯队大模型抗扰动能力较强，已实现对GPT4/3.5的赶超；对于尾部大模型供应商，需要通过增加预训练语料的丰富度等方式提升语言理解能力对于工业企业，为获得高质量回答，要加强培训，尽量使用常用词汇或进行多维度描述以减少歧义。文法稳定能力一顺序抗扰动大模型对工业领域语句表达顺序变换的回答稳定性。测试样例：原提问：物体受热时发生体积膨胀的现象称为（）A：热稳定性B：热膨胀性C:透气性D:化学稳定性扰动提问：物体受热时发生体积膨胀的现象称为（） A：热稳定性B:透气性C:化学稳定性D：热膨胀性注：顺序变化测试变体涉及到“选项内容顺序”、“选项符号顺序”和“选项顺序”变化。对于顺序变换，整体大模型稳定能力提升空间较大，国外头部大模型表现能力相对较好对于尾部大模型供应商，需要通过语料变换等方式提升模型真正理解问题的能力，而不是记忆题目；对于工业企业，要注意对测试语料的保护，使用充分变换的语料进行实际应用效果测试。文法稳定能力一逻辑抗扰动大模型对工业领域不同逻辑表达形式的回答稳定性。测试样例：原判断题：受力物体内一点只要不受力，就不会发生塑性变形。扰动判断题：如果物体内的某点没发生塑性变形，那么该点一定没有受力。注：逻辑变化测试变体涉及“否定”、“双重否定”和“逆否”变化。对于大模型供应商，需持续改善模型逻辑能力，如丰富逻辑语料，完善提示词，引入知识库，工具函数集等对于工业企业，在逻辑复杂场景中应谨慎使用大模型，安全性要求高的场景建议进行人工检验。三、米精简表达稳定能力指大模型在工业应用中表达变化精简的输出稳定性。整体看，国内外头部大模型能力在90分左右，能力较强，对比看，GPT-4/3.5比较领先。国内头部能力在85分左右，国内尾部大模型低于60分，提升空间较大；供给角度看，国内尾部大模型需要加强上下文处理能力和知识提取能力；应用角度看，工业企业在安全操作要求较高的场景应慎重评估大模型的应用能力。精简表达稳定能力一上下文精简抗扰动大模型应对输入信息上下文精简变化的稳定性测试样例：原提问：在机械装备行业中，根据基础物理研究，物体受热时发生体积膨胀的现象称为（）A：热稳定性B：热膨胀性C:透气性D：化学稳定性扰动提问：物体受热时发生体积膨胀的现象称为（）A：热稳定性B：热膨胀性C:透气性D：化学稳定性对于上下文变化的扰动，国内头部梯队大模型的稳定性和GPT-3.5接近，但尾部模型提升空间较大；对于大模型供应商，需进一步研究大模型提示词的机理，提升模型对上下文的理解能力；对于工业企业，企业应用时应对员工进行培训，提升提示词质量，从而获得高质量的回答精简表达稳定能力一安全守则精简抗扰动大模型应对安全生产指令的稳定性测试样例：原提问：结合中华人民共和国工业和信息化部钢铁行业生产经营规范，对于钢铁行业，判断正确或错误：一般富氧1.0%，可提高理论燃烧温度35~45°C，增加喷煤率4.0%。扰动提问：对于钢铁行业断正确或错误：一般富氧1.0%，可提高理论燃烧温度35~45℃，增加喷煤率4.0% 对于安全生产指令变动的影响，国内外大模型稳定性差距较小，尾部模型稳定性提升空间较大对于大模型供应商，需进行知识提取型任务的强化和优化，例如引入安全生产知识库等，以进一步提升模型稳定性，对于工业企业，在安全性要求高的领域使用大模型需特别谨慎，尽量丰富表达。例如撰写施工计划等，需引入人工校验四、扩充表达稳定能力指大模型在工业应用扩充表达的输出稳定性整体看，国内外头部大模型能力在80分以上，能够在较复杂上下文中保持了对关键词的敏感性：对比看，GPT-4/3.5比较领先，国内头部能力在80分左右，国内尾部大模型低于50分，有进一步提升空间，大模型间差距明显；供给角度看，国内尾部大模型需扩大上下文窗口和强化对齐能力：应用角度看，企业应用中可以通过精确指令和背景提升回答稳定性扩充表达稳定能力一不相关扩充抗扰动大模型应对输入不相关文本信息量增加的回答稳定性。测试样例：原提问：噪声最小的织机是（） A、剑杆织机B、有梭织机C喷气织机D、喷水织机扰动提问1：噪声最小的织机是（） A、剑杆织机B、有梭织机C喷气织机D、喷水织机E、以上选项都相关扰动提问2：今天天气不太好，噪声最小的织机是（） A、剑杆织机B、有梭织机C、喷气织机D、喷水织机对于不相关扰动能力，国内外头部梯队差距较小，尾部能力提升空间较大对于尾部大模型，需强化对上下文的理解能力和指令对齐能力对于工业企业，在应用中要对使

点击免费查看完整报告

2023人工智能大模型在工业领域知识问答稳定性评测报告

你可能感兴趣

通用人工智能大模型工业领域知识问答性能

保险行业应用评测报告：人工智能大模型

人工智能AI+汽车：2023年AI在办公智能驾驶金融及工业等领域应用现状分析报告

2023人工智能在时尚电商领域的应用指南报告：通过创新实现盈利最大化

人工智能大模型在医疗健康领域发展态势研究报告

『弈衡』人工智能大模型评测平台白皮书

2021年中国人工智能在工业领域的应用研究报告

人工智能行业：2021年中国人工智能在工业领域的应用研究报告

知识增强的视频语义理解评测报告

人工智能大模型体验报告（2023）