MLOps在网络智能化领域落地实践 梁晓扬 中国移动通信有限公司研究院九天网络智能化平台产品线CEO DataFunCon#2023 Contents目录 九天网络智能化平台 AI工程化落地探索 MLOps技术选型 MLOps思考 01九天网络智能化平台 个(九天团队) 网络智能化能力簇 体系化人工智能的核心引擎:九天 57家265家 服务内部客户服务外部客户 7.1万+亿 云边端能力调用次数 40+亿 赋能价值 16万+ AI开发者 超10亿 服务用户 中国移动目前已形成全面的九天人工智能产品体系,服务超用户,赋能价值 10086智能客服 -服务10+亿客户 -峰值月交互量2.1亿次 -问题一次解决率94.2% 个人领域(C) 大屏数字内容推荐 -服务家庭10000+万户 -观看率提升42% -单省收入赋能7000+万 家庭领域(H) 规模化应用 个 甘肃智能客服 -服务2500万甘肃百姓 -6000万关系政务知识图谱 -事项覆盖率100% 智能基站节电 -29省全网部署 -单站减排300千克/年 -单站节电量提升8%-10% 网络领域(N) 政企领域(B) 智慧党建 -服务16万党员 -知识检索效率提升90% -构建超5万条知识点数据库 管理领域(M) 核心能力 通用能力 平台型产品 个 ⑥九天网络智能化平台 网络智能化 全球最大的移动网络运营商 运维人员10W+ 网络场景 专业化、个性化 1+31 天然的云-边需求 九天网络智能化平台 2022年至今 探索MLOps, 承载网元基础模型,加速AI产品规模化落地 2017年 网络智能化初探索 2020年 网络智能化平台试点 网络智能化平台初具雏形,在 现网部署试点 2018-2019年 智能化能力和应用持续拓展 2021年至今 网络智能化平台商用 作为自智网络的智能化数字底座,实现了全网集中建设,支撑31省生产调用 国内首个通过“电信业人工智能平合产品能力评测认证”的AI平台,并被AIIA联盟选为“AI平台年度标杆案例” 与某省公司开展投诉智能定位定界研究 从投诉拓展到无线故障处理、无线智能优化、智能调度,运维知识图谱等应用,研发了20+能力 九天网络智能化平台 1个中心+N个边缘 30+能力合作伙伴 600+部署能力数 38亿+日均调用量 全网集中建设使用 3000+生产应用系统 九天网络智能化平台-功能架构 数据运营 支撑服务 用户中心 其他 数据安全 数据工厂 数据治理数据集管理 能力研发 能力工厂 能力推理能力管理 •公共数据集 •训练集标注 •数据集生成 平台服务 数据服务 便捷数据使用 •网络域场景建模服务 •通用场景建模服务 •一键封装 训练服务 加速能力研发 推理服务高效能力调用资源最大利用 管理服务 快速落地推广 AI综合应用 能力编排 应用研发 网络智能化平台 模型训练 九天基础平台 模型推理数据标注 九天网络智能化平台-技术架构 九天网络智能化平台-部署架构 直连 直连 代理 代理 02AI工程化落地探索 AI工程化过程中问题&解决方案 能力研发周期长 云-边模型不一致 各角色人员知识不共享 能力上线后模型不通用 能力上线后模型优化不及时 tritoninferenceserver自研模型研发框架 模型在线更新人员技能培训 制定能力运营规范 1 tritoninference server 我们的探索 2 自研模型研发功能 -模型封装 我们的探索 2 自研模型研发功能 -模型调度 我们的探索 我们的探索 3 模型在线更新 不同省份监控故障类数据分布不同,故监控故障类能力不具备共享条件,但是可以共享方案。这类能力特点是需要调用省份根据省内数据一次重训模型,然后基于优化后的模型去进行推理,即不同省份拥有不同的模型文件,一次训练后可进行持续多次的推理服务。 4 人员技能培训 我们的探索 1.算法和后端开发定期交流 2.对算法人员进行编程规范等培训 3.后端开发人员加强算法知识学习,《概率论》《机器学习》等 WhyMLOps?-MLOps是AI落地生产的必由之路 MLOps定义:链接模型构建团队和业务、运维团队、建立起一个标准化的模型开发、部署与运维流程,使得企业组织能更好的利用机器学习的能力来促进业务增长。以标准化过程生产高性能模型的持续交付。 03MLOps技术选型 技术选型决策点: 01开源vs.闭源 02平台vs.特定工具 03模型和生产环境监控 04模型模板和编排 05模型训练、调试和漂移管理 06流程管理工具 AmazonSageMaker商业工具(参考) 自动化偏差、模型漂移和概念漂移检测 通过AmazonSageMakerPipelines进行数据自动加载、数据转换、模型建立、模型训练与调试 通过源代码和版本控制、自动化测试和端到端自动化,进行CI/CD 训练数据、平台配置、模型参数和梯度学习的工作流日志 用于策略管理和执行、基础设施安全、数据保护、授权、身份验证和监控的安全机制 Kubeflow工作流 SeldonCore: SeldonCore目前是机器学习模型部署领域最受欢迎的方案之一,由Seldon公司开源和维护。SeldonCore旨在为不同框架下训练出来的模型 (Tensorflow,Pytorch,SKLearn,XGBoost)提供一套相对统一的部署方式。 模型封装技术选型 模型封装/调度技术选型-KServe KServe是由谷歌、IBM、彭博社、Nvidia和Seldon合作开发的,是Kubernetes的开源云原生模型服务器。是从Kubeflow项目毕业的独立组件。KServe可以部署为传统的Kubernetes部署,也可以部署为支持零扩展的无服务器部署。对于无服务器,它利用了面向无服务器的KnativeServing的优势,具有自动缩放功能。Istio用作入口,向API使用者公开服务端点。Istio和Knative服务的结合实现模型的蓝/绿和金丝雀部署。 数据漂移概念 数据漂移:当模型在生产中呈现的输入与训练期间提供的训练数据分布不对应 AlibiDetect: AlibiDetect实施成熟且相对容易设置。但是与SeldonCore紧密相关,支持模型实时监控。 :(文本、图像) 通过Kolmogorov-SmirnovTest,ChiSquareTest和Hellingerdistance统计分析数据漂移情况。其中KS用于检测两个密度分布函数的最大距离,chi用于统计样本的实际观测值与理论推断值之间的偏离程度。 Evidently: Evidently是一个在Apache2.0许可下可用的Python库。这是一个致力于简化模型监控的工具。 Evidently与平台无关,因此它适用于任何模型服务设置和任何机器学习框架 模型监控/漂移检测技术选型 whylogs whylogs可以检测结构化和非结构化数据,用于跟踪数据集变化,快速通过可视化展现数据摘要。可用于监测输入特征的数据漂移、概念漂移和模型性能下降、数据审核和治理。对于图像检测:先降维后检测。(色调、饱和度和亮度,exif) 检测整体模型性能下降并成功识别导致它的问题。 与其他工具轻松集成,同时通过其开源数据记录库(Whylogs)保持高隐私保护标准。 使用内置工具轻松调试数据和模型问题 最终技术选型-业务流程 •MLOps不是简单的ML+DevOps •MLOps和业务绑定较紧密,需要业务方自己定义和实现的较多 s 最终技术选型 自研模型封装 基于自研能力开发框架实现监控工具 自研流水线 数据标注方式由能力研发方上报 能力ID URL 输入类型 解析方式 app-ijdede288xy /api/v1/detct image $.image.fileId app-jkkede288xy /api/v1/audit json $.images[0].base64 04MLOps思考 MLOps思考 1.MLOps的输出到生产的距离有多远? 2.ML+DEV+部署,非自动化流程是否走顺了? 感谢聆听