热门搜索：

梁晓扬：MLOps在网络智能化领域落地实践

信息技术2023-07-24中国移动研究院路***

AI智能总结

九天网络智能化平台是全球最大的移动网络运营商运维人员的智能化数字底座，具备网络智能化初探索的历史。该平台在现网部署试点，并探索MLOps技术选型。九天网络智能化平台的AI工程化落地探索过程中存在能力研发周期长、各角色人员知识不共享、上线后模型不通用、上线后模型优化不及时等问题。为解决这些问题，九天网络智能化平台采用triton inference server进行自研模型研发，并制定能力运营规范。九天网络智能化平台的MLOps技术选型包括开源平台、特定工具和模型训练、调试和漂移管理。

MLOps在网络智能化领域落地实践梁晓扬中国移动通信有限公司研究院九天网络智能化平台产品线CEO DataFunCon#2023 Contents目录九天网络智能化平台 AI工程化落地探索 MLOps技术选型 MLOps思考 01九天网络智能化平台个（九天团队）网络智能化能力簇体系化人工智能的核心引擎：九天 57家265家服务内部客户服务外部客户 7.1万+亿云边端能力调用次数 40+亿赋能价值 16万+ AI开发者超10亿服务用户中国移动目前已形成全面的九天人工智能产品体系，服务超用户，赋能价值 10086智能客服 -服务10+亿客户 -峰值月交互量2.1亿次 -问题一次解决率94.2% 个人领域（C) 大屏数字内容推荐 -服务家庭10000+万户 -观看率提升42% -单省收入赋能7000+万家庭领域（H）规模化应用个甘肃智能客服 -服务2500万甘肃百姓 -6000万关系政务知识图谱 -事项覆盖率100% 智能基站节电 -29省全网部署 -单站减排300千克/年 -单站节电量提升8%-10% 网络领域（N）政企领域（B）智慧党建 -服务16万党员 -知识检索效率提升90% -构建超5万条知识点数据库管理领域（M）核心能力通用能力平台型产品个 ⑥九天网络智能化平台网络智能化全球最大的移动网络运营商运维人员10W+ 网络场景专业化、个性化 1+31 天然的云-边需求九天网络智能化平台 2022年至今探索MLOps，承载网元基础模型，加速AI产品规模化落地 2017年网络智能化初探索 2020年网络智能化平台试点 网络智能化平台初具雏形，在现网部署试点 2018-2019年智能化能力和应用持续拓展 2021年至今网络智能化平台商用 作为自智网络的智能化数字底座，实现了全网集中建设，支撑31省生产调用 国内首个通过“电信业人工智能平合产品能力评测认证”的AI平台，并被AIIA联盟选为“AI平台年度标杆案例” 与某省公司开展投诉智能定位定界研究 从投诉拓展到无线故障处理、无线智能优化、智能调度，运维知识图谱等应用，研发了20+能力九天网络智能化平台 1个中心+N个边缘 30+能力合作伙伴 600+部署能力数 38亿+日均调用量全网集中建设使用 3000+生产应用系统九天网络智能化平台-功能架构数据运营支撑服务用户中心其他数据安全数据工厂数据治理数据集管理能力研发能力工厂能力推理能力管理 •公共数据集 •训练集标注 •数据集生成平台服务数据服务便捷数据使用 •网络域场景建模服务 •通用场景建模服务 •一键封装训练服务加速能力研发推理服务高效能力调用资源最大利用管理服务快速落地推广 AI综合应用能力编排应用研发网络智能化平台模型训练九天基础平台模型推理数据标注九天网络智能化平台-技术架构九天网络智能化平台-部署架构直连直连代理代理 02AI工程化落地探索 AI工程化过程中问题&解决方案能力研发周期长云-边模型不一致各角色人员知识不共享能力上线后模型不通用能力上线后模型优化不及时 tritoninferenceserver自研模型研发框架模型在线更新人员技能培训制定能力运营规范 1 tritoninference server 我们的探索 2 自研模型研发功能 -模型封装我们的探索 2 自研模型研发功能 -模型调度我们的探索我们的探索 3 模型在线更新不同省份监控故障类数据分布不同，故监控故障类能力不具备共享条件，但是可以共享方案。这类能力特点是需要调用省份根据省内数据一次重训模型，然后基于优化后的模型去进行推理，即不同省份拥有不同的模型文件，一次训练后可进行持续多次的推理服务。 4 人员技能培训我们的探索 1.算法和后端开发定期交流 2.对算法人员进行编程规范等培训 3.后端开发人员加强算法知识学习，《概率论》《机器学习》等 WhyMLOps?-MLOps是AI落地生产的必由之路 MLOps定义:链接模型构建团队和业务、运维团队、建立起一个标准化的模型开发、部署与运维流程，使得企业组织能更好的利用机器学习的能力来促进业务增长。以标准化过程生产高性能模型的持续交付。 03MLOps技术选型技术选型决策点： 01开源vs.闭源 02平台vs.特定工具 03模型和生产环境监控 04模型模板和编排 05模型训练、调试和漂移管理 06流程管理工具 AmazonSageMaker商业工具（参考） 自动化偏差、模型漂移和概念漂移检测 通过AmazonSageMakerPipelines进行数据自动加载、数据转换、模型建立、模型训练与调试 通过源代码和版本控制、自动化测试和端到端自动化，进行CI/CD 训练数据、平台配置、模型参数和梯度学习的工作流日志 用于策略管理和执行、基础设施安全、数据保护、授权、身份验证和监控的安全机制 Kubeflow工作流 SeldonCore： SeldonCore目前是机器学习模型部署领域最受欢迎的方案之一，由Seldon公司开源和维护。SeldonCore旨在为不同框架下训练出来的模型（Tensorflow，Pytorch，SKLearn，XGBoost）提供一套相对统一的部署方式。模型封装技术选型模型封装/调度技术选型-KServe KServe是由谷歌、IBM、彭博社、Nvidia和Seldon合作开发的，是Kubernetes的开源云原生模型服务器。是从Kubeflow项目毕业的独立组件。KServe可以部署为传统的Kubernetes部署，也可以部署为支持零扩展的无服务器部署。对于无服务器，它利用了面向无服务器的KnativeServing的优势，具有自动缩放功能。Istio用作入口，向API使用者公开服务端点。Istio和Knative服务的结合实现模型的蓝/绿和金丝雀部署。数据漂移概念数据漂移：当模型在生产中呈现的输入与训练期间提供的训练数据分布不对应 AlibiDetect: AlibiDetect实施成熟且相对容易设置。但是与SeldonCore紧密相关，支持模型实时监控。 :（文本、图像）通过Kolmogorov-SmirnovTest,ChiSquareTest和Hellingerdistance统计分析数据漂移情况。其中KS用于检测两个密度分布函数的最大距离，chi用于统计样本的实际观测值与理论推断值之间的偏离程度。 Evidently： Evidently是一个在Apache2.0许可下可用的Python库。这是一个致力于简化模型监控的工具。 Evidently与平台无关，因此它适用于任何模型服务设置和任何机器学习框架模型监控/漂移检测技术选型 whylogs whylogs可以检测结构化和非结构化数据，用于跟踪数据集变化，快速通过可视化展现数据摘要。可用于监测输入特征的数据漂移、概念漂移和模型性能下降、数据审核和治理。对于图像检测：先降维后检测。（色调、饱和度和亮度，exif） 检测整体模型性能下降并成功识别导致它的问题。 与其他工具轻松集成，同时通过其开源数据记录库（Whylogs）保持高隐私保护标准。 使用内置工具轻松调试数据和模型问题最终技术选型-业务流程 •MLOps不是简单的ML+DevOps •MLOps和业务绑定较紧密，需要业务方自己定义和实现的较多 s 最终技术选型自研模型封装基于自研能力开发框架实现监控工具自研流水线数据标注方式由能力研发方上报能力ID URL 输入类型解析方式 app-ijdede288xy /api/v1/detct image $.image.fileId app-jkkede288xy /api/v1/audit json $.images[0].base64 04MLOps思考 MLOps思考 1.MLOps的输出到生产的距离有多远？ 2.ML+DEV+部署，非自动化流程是否走顺了？感谢聆听

点击免费查看完整报告

你可能感兴趣

梁晓扬：MLOps在网络智能化领域落地实践

你可能感兴趣

徐晓强-智能化研发工具链在百度的探索与实践

架构师特刊：联邦学习在金融领域的实践和落地困境

陈理华-大语言模型在 IT 运维领域的建设落地实践

【盘中宝】AI在新型电力系统建设中的极佳落地场景，各地陆续出台专项政策，这个行业或迎快速发展期，这家公司已应用AI技术开展相关领域实践-20240311

通信行业周周谈（2020年第23周）：车联网进入智能化时代，有望在商用车领域率先落地