行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

人工智能大模型工业应用准确性测评

2024-03-14-中国工业互联网研究院&香港科技大学&中国经济信息社报***

人工智能大模型工业应用准确性测评 2024年3月版 1 一、前言为贯彻落实党中央国务院关于促进人工智能发展的决策部署，中国工业互联网研究院依托通用人工智能与工业融合创新中心（简称“中心”），联合香港科技大学、中国经济信息社，深入研究人工智能大模型在工业领域的应用性能、技术架构、标准体系，并在此基础上，形成本报告。结合工业企业大模型应用情况调研，本报告在原有工业知识问答准确性测评的基础上，新增数据分析、工程建模、文档生成、代码理解等四大场景，构建测试数据集，对国内外具有代表性的大模型进行测试，发布新一轮的准确性测评报告，供业界进行参考。本报告测评结果虽经中心专家委论证，但因大模型迭代速度快，技术复杂，囿于工作团队专业知识和能力，报告难免存在分析结论不足等问题，且测评结果仅适用于测试期间，欢迎大家批评指正。 2 二、测评内容 2023年初至今，大模型技术发展突飞猛进，已逐步渗透至工业领域诸多环节，涵盖了知识问答、工程建模、数据分析、文档生成、代码理解等场景，正快速成长为工业转型升级和创新发展的重要动力。工业应用准确性测评石化化工行业知识问答结合工业知识，有理有据解答各领域专业性问题。工程建模面向工业问题，选取基础数学知识，建立数学模型进行求解。数据分析面向工业场景基础结构化数据，分析现象，描述趋势，得出结论。文档生成面向工业应用，有逻辑、有条理地生成总结性、分析性的文本。代码理解解答计算机编程问题，分析工业设计、控制代码安全性、计算复杂性。 •依托国家工业互联网大数据中心，聚焦重点工业行业，汇集高质量语料，形成工业语料库，支撑大模型在工业领域应用测评； •结合工业企业调研，在原有知识问答基础上，新增四类工业应用测评场景，开展大模型在各应用场景的准确性测评。 3 三、测评方法 测评流程评分标准进行问答调用待测试大模型API，收集大模型答案。进行判分[2] 1.题目类型：每个场景抽取若干题目进行测试，题型以问答题为主。 2.题目数量： ·知识问答：144道·数据分析：20道 ·工程建模：100道·文本生成：40道 ·代码理解：150道注：各场景题目数量虽不一致，但考察要点总量保持在同一个数量级。 3.题目得分：需要结合具体题目的评分细则，按照步骤进行赋分，赋分后分数进行归一化处理。 4.场景得分： ·场景得分为题目总分百分化处理后的分数。 ·若有细分场景，则场景总分为细分场景的平均成绩。 5.综合评分：由各场景算数平均分计算得出。利用GPT4，根据评分标准，按步骤赋分。筛选题目根据场景、难度、行业，选取有标准答案的题目，经人工校验后形成测试题。生成判分标准[1] 利用GPT4将原有标准答案整理为评分标准，并通过人工校验提升判分标准科学性。 •为更贴合应用场景实际，进一步评价模型的多维能力，本期测评题型以问答题为主； •为保障判分的一致性与准确度，问答题的评分方式由人工判分改为大模型判分，并按步骤赋分。 4 [1]对于GPT4，先获取其回答，再用其生成标准答案、进行判分，避免信息泄露； [2]GPT4的API承诺不记录数据用于训练，参考业界成熟方案，使用GPT4的API生成标准答案和判分结果，减少测评误差。四、测评结果-综合排名大模型准确性排名Top20[1] 国际平均55 国内平均54 测评成绩 100 90 80 70 准确性 60 50 40 30 20 0 GPT4 文心一言 ChatGLM 星火3.5 通义千问 Claude 百川3 Mistral Cosmo Yi 从容大模型 360智脑 GPT3.5 GeminiPro 星火3.0 MiniMax 天工大模型 Llama70b Llama13b(中文微调) 百川13B 10 •综合能力上，GPT4处于领先地位，国内大模型文心一言、ChatGLM紧随其后； •对于国内大模型，多个模型综合能力超过GPT3.5，包括文心一言、ChatGLM、星火3.5、通义千问等； •对于国外大模型，GPT4领先优势明显，其余模型差距较大。 5 [1]模型版本号参见附录1。四、测评结果-能力对比与变化趋势 各维度大模型最佳能力对比图[1]国内大模型发展趋势[2] 100 85 70 55 40 25 工程建模 2023年6月底相对GPT3.5成绩 2024年年初相对GPT3.5成绩 23年中国内平均 24年初国内平均 2023年6月底 2024年初国内相对GPT3.5成绩国际160% 文档生成数据分析 120% 80% 40% 文心一言 ChatGLM 星火大模型通义千问从容大模型 360智脑天工大模型文心一言 ChatGLM 星火大模型通义千问从容大模型 360智脑天工大模型工业知识问答代码理解 •对比往期测评，2023年下半年国内大模型能力提升明显（以GPT3.5为基准）。 [1]选取国内外各能力维度性能最佳的大模型进行对比； •在工业知识问答、文档生成等领域，国内大模型已取得领先，数据分析、代码理解等领域能力接近； •在工程建模领域，国内大模型与国际存在一定差距。 6 [2]国内大模型发展趋势统计规则见附录2。应用场景研判 •研发设计环节：研发工程师可基于大模型快速、便捷获取高质量知识，提升研发效率； •生产制造环节：产线工人可实时向大模型查询生产工艺经验，辅助其进行制造工艺优化； •售后服务环节：企业可基于大模型，通过数字人实时向客户提供售后咨询服务； •技能培训环节：新员工可通过大模型了解企业信息、学习生产技能。五、场景测评一:工业知识问答大模型可结合自身知识，回答不同工业领域问题，将用于员工培训、故障诊断、客服咨询、市场调研等交互场景，协助企业员工熟悉生产流程，帮助用户了解产品特性。知识快速获取工艺辅助优化数字人售后服务员工自助培训7 五、场景测评一:工业知识问答国内国际 测评结果行业能力对比[1] 100 100 工业知识问答能力Top20 准80 工业知识问答国内平均专业知识问答国际平均专业知识问答国内平均52 国际平均41 确性60 （分）40 20 80 0 准建材石化化工电力电子制造纺织装备制造钢铁采矿确60 性 题目样例问题：你知道哪些常用逻辑电平?TTL与CMOS电平可以直接互连吗? 评分标准： (1)常用逻辑电平包括：12V，5V，3.3V。（1分，给出标准中同样或近似的回答则得1分，否则不得分。） (2)TTL和CMOS电平是否可以直接互连：不可以直接互连。（1分，给出标准中同样或近似的回答则得1分，否则不得分。） (3)TTL和CMOS电平互连的条件：CMOS输出可以直接接到TTL，而TTL接到CMOS需要在输出端口加一上拉电阻接到5V或者12V。（1分）本题共3小项，每个小项1分，满分3分。对于每个小项，如果描述有差距，或者详细程度不足，酌情给0.3或者0.5分或者0.8分。（分） 40 20 ChatGLM 文心一言 Cosmo 星火3.5 星火3.0 GPT4 通义千问 Yi 百川3 从容大模型 360智脑 GeminiPro Claude MiniMax 天工大模型 GPT3.5 Mistral Llama13b(中文微调) Llama70b 百川13B 0 •在知识问答领域国内大模型已具备一定优势，ChatGLM、文心一言等多个大模型实现对GPT4超越； •国内大模型在建材、采矿等行业具有显著优势，在装备制造、钢铁等行业与国际水平接近； •对比不同行业，国内外大模型在钢铁、电力等行业有较好的知识储备，对于纺织、装备制造等行业仍需加强训练。 8 [1]图中数据为各行业国内外性能最佳大模型成绩。应用场景研判 •研发设计环节：基于历史实践，建立成本模型，指导新项目的规划和预算编制，提高项目成功率； •生产制造环节：建立时序预测、异常检测模型，基于预测优化生产计划，提高施工效率和安全性； •运维管理环节：建立运筹模型，对工厂生产人员进行排版优化，提升人员效能； •营销宣传环节：建立营销收益模型，提升营销效率，节约营销成本。五、场景测评二:工程建模大模型具备基础建模能力，将帮助工程师和企业管理人员在实际工程设计、生产运维等领域进行数学建模，寻求最佳的解决方案。工程数学建模预测模型优化生产计划优化员工班次布局提高人效营销收益建模节约销售成本9 五、场景测评二:工程建模 测评结果题目样例问题：某公司在2018年年初预订x万产量的目标，2018年6月己完成计划的60%，此后按照上半年月均产量生产，则2018年超出计划产量300万. 那么该公司2018年年初预订的产量为多少万元？评分标准： 1.如果能正确列出完成计划的60%即为$0.6x$万的关系，得1分； 2.如果能正确列出下半年产量也为$0.6x$万的关系，得1分； 3.如果能正确列出并解方程$0.6x+0.6x-x=300$，得1分； 4.如果能正确解出$x=1500$，得1分；本题共四个得分点，满分为4分，得分情况为（得分/满分）。工程建模能力Top20 国内平均43国际平均43 100 工程建模国内平均工程建模国际平均工程建模 80 准确60 性（分） 40 20 GPT4 文心一言 ChatGLM 星火3.5 通义千问百川3 360智脑 Claude 星火3.0 从容大模型 GPT3.5 Mistral GeminiPro Cosmo MiniMax Llama13b(中文微调)Yi 天工大模型百川13B Llama70b 0 •在工程建模领域，GPT4、文心一言处于领先地位，对比其它模型具有显著优势； •国内外平均成绩均为43分，大模型建模能力整体处于较低水平，可收集数学建模专业语料进行强化训练，也可以使用代码解释器等增强工具提升大模型建模能力。 10 五、场景测评三:数据分析大模型可将结构化数据提炼为核心结论，对复杂业务数据进行自动分析，更全面、及时地帮助企业管理者运营和决策，提升工作效率和运营质量。 electric 应用场景研判 •研发设计环节：在海量产品评价数据中提取共性问题，改进产品设计，提升产品品质； •生产制造环节：自动分析工业生产时序数据，发现数据异常或潜在风险，及时预警或报错； •运维管理环节：辅助分析库存数据，进行呆滞库存和缺料提醒，提升管理效率； •人员培训环节：分析事故数据，杜绝生产事故，消除安全隐患。分析用户评价分析生产时序数据分析库存数据分析安全数据11 五、场景测评三:数据分析 测评结果题目样例问题：您需要撰写一份简短的报告，介绍下面的图表/表格/图形的主要特征。您应该执行以下任务：概括数据，描述过程的各个阶段等等，请使用中文进行撰写。下表为2001-2010年几种型号电话年产量。评分标准: (1).文章对比了2001年至2010年几种电话的年均产量变化。（1分，如果有相关的全局性描述，则得1分，否则不得分。) (2).在这10年期间，B电话稳步下降，而A电话支出迅速增长。（1分必须有B稳步下降的描述，且有A电话迅速增长的描述性语言，只给出数据不进行对比描述不得分。） (3).2007年是A产量超过B电话产量的转折点。（1分,必须指出2007年A电话超过B 的关键节点，只给数据出数据不描述不得分。）(4)...(5)... 本题共5小项，对于每个小项，如果学生的回答中有和该项一致的语句，则得1分，如果描述有差距，或者详细程度不足，酌情给0.3或者0.5分或者0.8分。数据分析能力Top20 数据分析国内平均数据分析国际平均数据分析国际平均56 国内平均53 •在数据分析领域，文心一言能力最佳，与GPT4、Mistral等

点击免费查看完整报告