行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

邓超：面向生产服务的大模型评估体系探讨

信息技术 2024-01-22 中国移动研究院程思齐Sophie

中国移动大模型布局及进展，包括面向生产服务的大模型评估体系，九天客服大模型应用评估实践，以及中国移动自主构建的语言、视觉、语音等多种类型大模型。这些大模型具备跨行业供给侧增强、高可控性、异构软硬件灵活部署等技术特色，整体性能指标实现国内主流水平，能更好满足企业全场景全部署的大模型落地需求。中国移动还构建了网络AI大模型，实现从“网络+AI”向“AI+网络”转变，降低AI赋能网络的边际成本，指数级扩大赋能成效。

邓超中国移动研究院2024年1月一、中国移动大模型布局及进展二、中国移动大模型评估体系三、九天客服大模型应用评估实践中国移动自主构建语言、视觉、语音等多种类型大模型，具备跨行业供给侧增强、高可控性、异构软硬件灵活部署几大显著的技术特色，整体性能指标实现国内主流水平，能更好满足企业全场景全部署的大模型落地需求以九天基础模型为基础，联合通信、能源、航空等行业的骨干企业，共建共享九天·众擎基座大模型，加速国民经济主体行业的智能化转型升级，促进我国战略性新兴产业发展，带动我国整体生产力提升构建网络AI大模型，实现从“网络+AI”向“AI+网络”转变，降低AI赋能网络的边际成本，指数级扩大赋能成效为网络智慧内生提供AI核心基座，助力网络与AI全面、深度融合多模态、异构数据统一聚合 •基于网络大模型的网络运维AI助手正式上线中国移动MOA网络运维中心2个应用场景，端到端准确率达88%以上九天·海算政务大模型是中国移动基于近年来积累的丰富数字政府建设经验所打造的面向政务领域的行业大模型。九天·海算政务大模型面向政务领域特殊性，融合了三大特色：深度行业智能、政务信息场、多元式交互 2023年世界人工智能大会上，发布了九天·海算政务大模型，已落地应用于黑龙江省数字政府项目政务智能客服、智能搜索、数字人、公文辅助写作等应用场景中的落地验证面向企业级智能客服场景，基于10086服务近十亿客户的海量客服数据、业务知识和服务经验，打造九天·客服大模型，让每个用户都拥有24小时在线的“专属管家”，极大提升客服工作效率和用户体验 2023年中国移动合作伙伴大会上，发布了首个基于客服行业大模型的智能客服产品，实现大模型客服领域应用破冰已在北京、广东等试点省份生产上线构建以平台和大模型为核心的智能基座，成为通用人工智能时代泛在智能的供给者、汇聚者和运营者，全面实现AI+转型升级 •供给者：为产业提供智算、模型、平台等资源及服务•汇聚者：广泛汇聚国内外优质模型、数据、工具链和AI原生应用等•运营者：算、网、智等AI+应用的一体化服务及生态运营面向生产服务需求，汇聚业界优秀的通用和专用大模型及能力，建立“多层次-多维度-多任务-多指标-多模式”的大模型评估体系，确保汇聚的大模型安全、优质、高效，推动大模型产业规范化发展模型汇聚与承载一、中国移动大模型布局及进展二、中国移动大模型评估体系三、九天客服大模型应用评估实践面向生产服务场景，建立语言大模型、行业大模型、多模态大模型、智能体应用、安全评测等五大评测基准，围绕评测数据、指标、方法与分析三大建设方向，高效开展综合全面的大模型评估评测。模型接入生产系统时，需要经过一系列“全面考验”，接入生产开始服务后，要开展“持续考验”，根据用户市场真实反馈，形成动态反馈机制持续优化提升大模型的落地成效面向生产的模型评估整体目标：构建覆盖训练数据、模型输入和输出的审核体系审核机制：建立审核标签体系，对数据进行变体词识别等预处理后，通过多个模型标记审核标签，给出回答建议打造大模型评测平台，通过分层架构设计，增强其扩展性和灵活度，实现一键注册、快速评测、智能分析的大模型标准化评测流程标准化评测流程模型注册准备模型信息数据准备准备评测数据集灵活快速接入业界多种类大模型，支持最大tokens数、并发线程、引导开关等配置项通过评测任务管理历史评测项。支持prompt模板配置、自动化打分、人工审核校验覆盖基础评测、专项评测、领域评测、体验评测等4大评测维度、2000+个评测场景数据集基于准确性、鲁棒性、公平性、安全性等多维度量化打分，支持评测榜单快速查看多功能支持 •批量起聊•自动多轮对话•自动数据填充，自动场景打分 •支持PaaS平台•支持MaaS平台•承接更多对外服务 •相对评估，消除差异•动态调整，确保准确性、适应性•可扩展性，适应不同数量和类型 •支持图生文•支持文生图•更多能力支持以语言大模型为出发点，建立评测基准，已形成4大评测维度、5大类指标、600+个评测场景、2000+簇评测数据集海量评测数据集：2000+簇评测数据集开源数据集：涵盖CMMU、CEVAL、AGI、GAOKAO、MMLU等自建数据集：例如安全类数据集3万+条，央企特色数据2万+条行业大模型评测与通用大模型评测不同，行业大模型更加专注于行业领域知识和实际应用，为此行业大模型评测应深度融合行业特色，评估大模型的高级理解、生成能力，如意图识别、意图改写和话术润色等，从而系统评估和分析行业模型的性能、准确性、适应性和实用性，确保模型满足行业标准和实际应用需求一、中国移动大模型布局及进展二、中国移动大模型评估体系三、九天客服大模型业务应用实践率先应用在10086全球最大的客服系统，驱动客服领域行业应用破冰。 Ma x（工具和知识边界）•服务效率 •多模态 •多元多级高可控性•开创人机协同新模式 •面向10086智能客服系统生产级别上线要求，建立多维度、多层次的客服大模型评测体系，确保评测的完备性和合理性•针对真实客服场景中面临的安全可信问题，提出溯源信息场和一致性校验的方案，贯穿客服大模型的全流程，实现客服回复内容的可信响应，保证服务的安全可控安全管控工具：解决不该答的不答问题实现对用户表达、大模型生成内容进行双向安全管控 Ø已对接智能在线客服敏感词库 Ø支持运营人员自定义安全监测、内容过滤规则客服人员完成多轮业务评测和多轮技术评测。系统和用户双驱动对话模式的灵活多样性。解决复杂系统智能化体系大而不稳的挑战。主动服务预训练行业基座 •交互模式升级•单一界面→360度全方位提前想你所想 •客服知识融入基础模型、进阶式学习，访问增强情感关怀数据精标及增强简单入口、现有系统重用和系统伴随，提供润物细无声的服务。从客户-机器人、客户-客服的单点的沟通，升级为客户+大模型+客服三方协同交互。善智者，动于九天之上

点击免费查看完整报告

邓超：面向生产服务的大模型评估体系探讨

你可能感兴趣

信通院-面向金融业务典型场景的大模型应用能力评估与思考

面向智慧内生的6G全服务化架构探讨

农业政策：2024年的展望与评估（abrégée版）：可持续生产的创新服务

2024军事大模型评估体系白皮书

移民社区需求评估：探讨移民社区在寻求癌症和医疗服务方面的经验

计算机行业：企业级服务系列报告二-国内发展路径探讨与SaaS公司盈利评估方法

邓迪贵金属公司（DPM）：寻找填补生产和收益差距的方法

【电报解读】阿里将通义实验室升级为事业部！数据显示通义大模型已服务超百万企业客户，在相关领域日均Tokens调用量达1.81万亿，这家公司90_以上基础设施使用的是阿里云-20260409

王东:面向算力网络的新型全光网技术发展及关键器件探讨

张德朝：面向算力网络的新型全光网技术及演进探讨