面向生产服务的大模型评估体系探讨 邓超 中国移动研究院2024年1月 1 一、中国移动大模型布局及进展 二、中国移动大模型评估体系 三、九天客服大模型应用评估实践 2 客服 政务 社会综治 医疗 企业通话 交通运输 能源 语言大模型 视觉大模型 语音大模型 + 结构化数据大模型 + 多模态/跨模态大模型 3 中国移动自主构建语言、视觉、语音等多种类型大模型,具备跨行业供给侧增强、高可控性、异构软硬件灵活部署几大显著的技术特色,整体性能指标实现国内主流水平,能更好满足企业全场景全部署的大模型落地需求 3B/7B/13.9B/57B/100B+ 9B 2B 6B→13B 100B+→200B+ 语言大模型视觉大模型语音大模型结构化数据大模型多模态大模型 在71%的中文测试集主流指标上,超过业界同等参数规模模型 多种类型基础大模型 特色一 特色二 特 色 三 4 以九天基础模型为基础,联合通信、能源、航空等行业的骨干企业,共建共享九天·众擎基座大模型,加速国民经济主体行业的智能化转型升级,促进我国战略性新兴产业发展,带动我国整体生产力提升 符合生产指标 强信息集成能力 强任务主导性 复杂系统AI及强系统集成能力 基础大 模型 高准确率 持续学习行业规范与知识 提供基础 高可靠性 高动态自适应 强理解能力 强生成能力 专业数据 行业大模型 客服 政务 医疗 交通 时空 家庭 物联网 社会综治视觉 网络运维 网络运维 文体 行业通话 金融风险 储能 司法 6 数据 异构性 多模态 融合 复杂系统 智能化 演进理念 挑战 95% NLP 40% 图像 60% 结构化 极速业务 交付 极优网络 品质 极佳资源 效率 极省运维 成本 极简一线 作业 100% 语音 网管智能体 网元网元网元网元智能体智能体智能体智能体 自然语言 图像 语音结构化 大模型对现有模型替代 复杂跨模态能力 体系化AI:分层多智能体协作 构建网络AI大模型,实现从“网络+AI”向“AI+网络”转变,降低AI赋能网络的边际成本,指数级扩大赋能成效为网络智慧内生提供AI核心基座,助力网络与AI全面、深度融合 网络大模型(JT-Net) 多模态、异构数据统一聚合 •2023年中国移动合作伙伴大会上发布网络大模型1.0,优先服务四大场景,驱动向“AI+网络”全面演进 •基于网络大模型的网络运维AI助手正式上线中国移动MOA网络运维中心2个应用场景,端到端准确率达88%以上 九天·海算政务大模型 政务信息场 事政流数… 一网通办一网统管一网协同 项策程 据政务大模型 政策咨询 事项办理 数据分析 舆情洞察 公文写作 智能流转 九天·海算政务大模型是中国移动基于近年来积累的丰富数字政府建设经验所打造的面向政务领域的行业大模型。九天·海算政务大模型面向政务领域特殊性,融合了三大特色:深度行业智能、政务信息场、多元式交互 深度行业智能 政务政策-政务事项-政务数据存储深度贯穿模型驱动整体业务流程,灵活易用 政务信息场 汇聚散落的关联数据 政务流程不出“场”,安全可信 多元交互模式 政务多交互方式融合 TOD+大模型+GUI,智能便捷 2023年世界人工智能大会上,发布了九天·海算政务大模型,已落地应用于黑龙江省数字政府项目政务智能客服、智能搜索、数字人、公文辅助写作等应用场景中的落地验证 业务咨询 情感关怀 业务办理 业务投诉 ...... 客户画像 话术生成 智能点选 智能摘要 ...... 面向客户 面向客服 面向运营 知识采编智能质检热点话题挖掘投诉分析 ...... 面向客户服务全场景的行业大模型 面向企业级智能客服场景,基于10086服务近十亿客户的海量客服数据、业务知识和服务经验,打造九天·客服大模型,让每个用户都拥有24小时在线的“专属管家”,极大提升客服工作效率和用户体验 13.9B 57B 基础大模型 100B+ + 服务日志 业务数据 数据 知识库 API 中国移动10086客服焕新升级 中国移动app打造全新交互体验 2023年中国移动合作伙伴大会上,发布了首个基于客服行业大模型的智能客服产品,实现大模型客服领域应用破冰已在北京、广东等试点省份生产上线 构建以平台和大模型为核心的智能基座,成为通用人工智能时代泛在智能的供给者、汇聚者和运营者,全面实现AI+转型升级 供给者 汇聚者 •供给者:为产业提供智算、模型、平台等资源及服务 •汇聚者:广泛汇聚国内外优质模型、数据、工具链和AI原生应用等 基于体系化人工智能的算、网、智一体化服务运营 大模型 小模型 数据集 AI原生应用 九天通用大模型 九天行业大模型 算力 数据 平台 小模型 核心技术 安全审核 数据汇聚 模型体验 大小模型协同 模型自动评测 ... 安防 司法 政务 交通 工业 ... 管理 通信 家庭 客服 运营者 •运营者:算、网、智等AI+应用的一体化服务及生态运营 面向生产服务需求,汇聚业界优秀的通用和专用大模型及能力,建立“多层次-多维度-多任务-多指标-多模式”的大模型评估体系,确保汇聚的大模型安全、优质、高效,推动大模型产业规范化发展 模型汇聚与承载 模型评测与安全审核 政务大模型 客服大模型 主观感受意图识别域内知识域外幻觉 行业大模型 意图识别拟人程度 答案有效 ... ... 语言大模型视觉大模型 多模态大模型 理解 生成 交互 推理 感知 交互 认知 推理 多模态序列转换 ... 功能指标 任务支持度 场景支持度 性能指标 客观:准确性、鲁棒性...主观:准确性、安全性... 训练数据安全输入问题的安全模型结果安全 自动评测+人工评测 承载开源、业界领先的通专模型及工具 自研大模型开源大模型第三方大模型 小模型工具链AI原生应用 服务成熟度 实时性并发性稳定性 构建承载平台,提供一体化、全流程的汇聚服务 入驻标准 模型测评 安全审核 大小模型端云协同 九天平台已汇聚开源模型20+个 百川-7B百川-13B GLM-130B 百川2-13B Yi-32B Belle-7B Belle-13B Bloomz-3B Bloomz-176B ChatGLM-6B ChatGLM2-6B LLaMA-7B LLaMA-13B LLaMA-33B LLaMA-65B GPT-NeoX Dolly Falcon-40B Moss StableDiffusion 二、中国移动大模型评估体系 一、中国移动大模型布局及进展 三、九天客服大模型应用评估实践 14 面向生产服务场景,建立语言大模型、行业大模型、多模态大模型、智能体应用、安全评测等五大评测基准,围绕评测数据、指标、方法与分析三大建设方向,高效开展综合全面的大模型评估评测。 政治敏感 违法违规 五大基准 基 专领 体 础 项域 验 评 评评 评 测 测测 测 内容安全 伦理安全 价值观对齐偏见歧视 信息安全 个人隐私商业机密 模型安全 三大2千+簇评测数据集 建设基础数据行业数据 专项数据安全数据 5大类评测指标可视化展示评测结果 功能指标 性能指标 可视化报告 数据看板 业务指标 服务成熟度 自动化分析 ELO排行 自动评测+人工评测 技术支撑理论支撑 客服大模型 政务大模型 网其 络 运维大 他行业 模 模 型型 图文领域 音视频领域 混合多模态 数字人 智能客服 知数智 识据能 管分助 理析理 评测 平台模型注册模型管理 评测任务管理 评测场景管理 评测指标汇聚 评测数据管理 评测报告分析模型能力排行 面向生产的模型评估 第一阶段全面考验 第二阶段 持续迭代 评测优化 持续考验 政务大模型 客服大模型 行业大模型 意图识别 答案有效 主观感受 意图识别 特定场景评测 专家评测 用户评测 拟人程度域内知识域外幻觉 语言大模型 ... ... 多模态大模型 主观感受 多样性、代表性 回复专业性 问题解决率 视觉大模型 理解交互 生成推理 感知认知 交互推理 多模态序列转换 服务成熟度 实时性并发性稳定性 性能指标 客观:准确性、鲁棒性...主观:准确性、安全性... 准确性、应用性 灵活性、适应性 ... 功能指标 任务支持度 场景支持度 性能指标 客观:准确性、鲁棒性...主观:准确性、安全性... 服务成熟度 实时性并发性稳定性 模型接入生产系统时,需要经过一系列“全面考验”,接入生产开始服务后,要开展“持续考验”,根据用户市场真实反馈,形成动态反馈机制持续优化提升大模型的落地成效 模型结果安全 输入问题的安全 反馈优化 结果分析 结果收集 训练数据安全 自动评测+人工评测 自动评测+用户评测+业务专家审核 内容审核 接口调用 识别结果 训练数据判断 九天大模型 整体目标:构建覆盖训练数据、模型输入和输出的审核体系 审核机制:建立审核标签体系,对数据进行变体词识别等预处理后,通过多个模型标记审核标签,给出回答建议 训练数据 用户输入 结果输出 输入数据判断 九天大模型 模型输出数据判断 接口调用 识别结果 接口调用 识别结果 内容审核 内容审核 17 标准化评测流程 数据准备 准备评测数据集 模型注册 准备模型信息 模型评测 发起模型评测 查看报告 查看模型评估报告 打造大模型评测平台,通过分层架构设计,增强其扩展性和灵活度,实现一键注册、快速评测、智能分析的大模型标准化评测流程 覆盖基础评测、专项评测、领域评测、体验评测等4大评测维度、2000+个评测场景数据集 灵活快速接入业界多种类大模型,支持最大tokens数、并发线程、引导开关等配置项 通过评测任务管理历史评测项。支持prompt模板配置、自动化打分、人工审核校验 基于准确性、鲁棒性、公平性、安全性等多维度量化打分,支持评测榜单快速查看 •支持图生文 •支持文生图 •更多能力支持 •支持PaaS平台 •支持MaaS平台 •承接更多对外服务 •批量起聊 •自动多轮对话 •自动数据填充,自动场景打分 •相对评估,消除差异 •动态调整,确保准确性、适应性 •可扩展性,适应不同数量和类型 多功能支持 • 评测指标 5大类评测指标: 准确性、鲁棒性——着重指大模型的功能、稳定性表现安全性、公平性——着重指大模型的非功能表现 高效性——着重指大模型的响应时延、并发度 评测数据 • • • 海量评测数据集:2000+簇评测数据集 开源数据集:涵盖CMMU、CEVAL、AGI、GAOKAO、MMLU等 自建数据集:例如安全类数据集3万+条,央企特色数据2万+条 评测维度 • • 4大评测维度:基础评测、专项评测、领域评测、体验评测 600+评测场景:例如学术任务场景、创作写作、事实知识、计算、逻辑推理、闲聊、安全、自我认知等 以语言大模型为出发点,建立评测基准,已形成4大评测维度、5大类指标、600+个评测场景、2000+簇评测数据集 理解能力 生成能力 知识能力 安全能力 行业大模型评测与通用大模型评测不同,行业大模型更加专注于行业领域知识和实际应用,为此行业大模型评测应深度融合行业特色,评估大模型的高级理解、生成能力,如意图识别、意图改写和话术润色等,从而系统评估和分析行业模型的性能、准确性、适应性和实用性,确保模型满足行业标准和实际应用需求 意图改写意图识别 关键词生成润色度 世界知识行业知识 内业隐 对话状态判断 情绪识别 信息场对话 摘要生成 社会常识生活常识 容务私 安安安 信息抽取 ... 文章创作... 客观事实... 全全全 专家审核 人工评测 自动评测 多样性 灵活性 趋动交 势态叉 适抽验 应样证 全面性 可解释性 结果一致 可靠性 可复现性 技业用 术务户 侧侧侧 多样性和代表性 灵活性和适应性 准确性和实用性 样本多样化 广泛覆盖动态更新高频/低频标签 质量控制真实场景映