人工智能研发运营体系 (MLOps)实践指南 (2023年) 中国信息通信研究院云计算与大数据研究所 人工智能关键技术和应用评测工业和信息化部重点实验室 I 2023年3月 版权声明 本指南版权属于中国信息通信研究院、人工智能关键技 术和应用评测工业和信息化部重点实验室,并受法律保护。转载、摘编或利用其它方式使用本指南文字或者观点的,应注明“来源:中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室”。违反上述声明者,本院将追究其相关法律责任。 前言 随着国家新型基础设施建设发展战略(2020)、国家“十四五规划和2035年远景目标纲要”等系列政策的出台,人工智能(AI)发展迎来新一轮红利,科技革命和产业升级处于进行时。近年来,AI工程化的研究热度持续提升,其目的是帮助组织在数智化转型过程中,更高效、大规模地利用AI创造业务价值。人工智能研发运营体系(MLOps)作为AI工程化重要组成部分,其核心思想是解决AI生产过程中团队协作难、管理乱、交付周期长等问题,最终实现高质量、高效率、可持续的AI生产过程。 MLOps的发展呈现出逐渐成熟的态势,近几年国内外MLOps落地应用正持续快速推进,特别是在IT、银行、电信等行业取得明显效果。与此同时,MLOps行业应用成熟度不足,使得组织在制度规范的建立、流程的打通、工具链的建设等诸多环节面临困难。因此本指南旨在成为组织落地MLOps并赋能业务的“口袋书”,围绕机器学习全生命周期,为模型的持续构建、持续交付、持续运营等过程提供参考,推进组织的MLOps落地进程,提高组织AI生产质效。 本指南由中国信通院云计算与大数据研究所、人工智能关键技术和应用评测工业和信息化部重点实验室联合发布。本指南站在组织如何布局和落地MLOps的视角,以模型的高质量、可持续交付作为核心逻辑,系统性梳理MLOps概念内涵、发展过程、落地挑战等现状,并基于MLOps的理论研究和实践案例分析组织如何构建MLOps框架体系和关键能力,最后总结和展望其发展趋势。 由于AI产业的快速变革,MLOps落地应用持续深入,工具市场不断迭代,我们对MLOps的认识还有待继续深化,本指南可能仍存在不足之处,欢迎大家批评指正。 目录 一、MLOps概述1 (一)AI生产过程管理问题凸显1 (二)MLOps概念与意义2 (三)MLOps实施原则3 二、MLOps发展现状与挑战6 (一)MLOps发展过程6 (二)MLOps落地挑战11 三、MLOps框架体系13 (一)机器学习项目生命周期13 (二)MLOps流程架构14 (三)MLOps相关角色19 四、MLOps关键能力与技术实践22 (一)数据处理22 (二)模型训练25 (三)构建集成27 (四)模型服务30 (五)运营监控35 (六)模型重训38 (七)实验管理40 (八)流水线管理43 (九)特征管理45 (十)模型管理47 (十一)仓库管理50 (十二)模型安全53 五、MLOps总结与展望57 (一)总结57 (二)展望58 图目录 图1MLOps示意图2 图2MLOps实施原则4 图3机器学习技术债示意图6 图4Gartner数据科学和机器学习技术成熟曲线8 图5MLOps工具分类一览9 图6机器学习项目生命周期示意图13 图7基于MLOps框架的机器学习项目生命周期示意图14 图8MLOps流程架构示意图14 图9MLOps相关角色分工示意图19 图10MLOps关键能力示意图22 图11广东移动的数据处理能力示意图23 图12格物钛的数据处理能力示意图24 图13云测数据的数据处理能力架构图25 图14百度的模型训练架构图27 图15马上消费的构建集成流程图29 图16腾讯的MLOps平台示意图30 图17浦发银行模型服务示意图32 图18建行模型服务架构图33 图19中移在线中心PolarisMLOps平台模型部署流程34 图20星环科技MLOps流程图35 图21联通软件研究院模型成效闭环运营分析示意图37 图22蚂蚁的持续训练能力示意图39 图23蚂蚁的持续训练流程图40 图24百度的实验管理流程图41 图25华为终端云的实验管理界面42 图26农行的流水线管理示意图44 图27华为终端云的流水线编排可视化能力示意图44 图28华为终端云的特征实验流程图46 图29浦发银行的特征工程流程图47 图30河南移动的模型管理示意图48 图31百度的模型管理流程图49 图32九章云极DataCanvas模型管理功能示意图50 图33中信证券的机器学习生命周期示意图52 图34绿盟的模型安全防御策略示意图54 图35蚂蚁的AntSecMLOps架构图55 图36蚂蚁的蚁鉴-AI安全检测平台56 表目录 表1MLOps相关角色职责要求20 附表1MLOps工具链清单63 一、MLOps概述 MLOps是通过构建和运行机器学习流水线(Pipeline),统一机器学习(ML)项目研发(Dev)和运营(Ops)过程的一种方法,目的是为了提高AI模型生产质效,推动AI从满足基本需求的“能用”变为满足高效率、高性能的“好用”。本章首先阐述组织在AI大规模生产过程中凸显的管理问题,然后梳理MLOps概念和意义,并分析落地MLOps所遵循的原则。 (一)AI生产过程管理问题凸显 Gartner调查发现,只有53%的项目能够从AI原型转化为生产1。AI生产转化率低的主要原因在于模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。 第一,跨团队协作难度大。机器学习项目生命周期中涉及业务、数据、算法、研发、运维等多团队,团队间缺乏相同的技术和业务背景知识作为协作基础,从而带来沟通屏障。同时每个团队的协作工具不尽相同,从数据和算法转化为推理服务的整个过程漫长而复杂,从而增大协作难度。 第二,过程和资产管理欠缺。模型生产过程无标准化管理,导致AI资产的价值无法有效发挥。原因在于以下几方面:一是生产过程冗长难管理,AI模型生产过程涉及的环境、流程复杂,各部门习惯于小作坊的生产模式,重复造轮子现象普遍;二是AI资产无集中共享机制,组织内数据、特征、模型等碎片化AI资产无法共享使用,优秀实践经验难以沉淀。 1Gartner,《TopStrategicTechnologyTrendsfor2021》. 第三,生产和交付周期长。机器学习模型生产和交付是一个漫长、复杂又易出错的过程,且耗费的时间成本较高。据Algorithmia报告显示,38%的企业花费超过50%的时间在模型部署上2。这一现象的主要原因有三:一是模型文件的生产需要经过不断重复的实验和评估;二是模型服务需要通过编写服务代码和配置参数,并达到业务需求后,方可部署上线;三是业务效果的保证需通过在线模型开展服务验证和结果对比。 (二)MLOps概念与意义 MLOps通过连接模型构建团队、业务团队及运维团队,为机器学习模型全生命周期建设标准化、自动化、可持续改进的过程管理体系,使组织规模化、高质量、高效率、可持续地生产机器学习模型。MLOps能有效缓解AI生产过程的各种管理问题,提升AI生产的转化效率。 图1MLOps示意图 来源:中国信息通信研究院 MLOps理念源于面向软件工程的管理方法论DevOps,起初希望可以参考传统软件生产过程的管理方法,以应对提质增效的挑战。然而DevOps并不完全适用,因为机器学习项目是以数据、算法、代码、 2Gartner,《GartnerTop10DataandAnalyticsTrendsfor2021》. 模型为核心的动态模式,整个过程充满探索性、实验性和不确定性。若要迎合动态模式的需求,需要一种融合了机器学习特性的DevOps方法或体系,MLOps应运而生。MLOps意义和价值主要体现在以下几方面。 第一,建立团队协作机制。通过在组织级明确各流程中各角色(例如业务人员、数据工程师、数据科学家、运维工程师等)和职责,并以流水线的方式连接各团队成员的工作,使团队协作机制得以建立,打破沟通屏障,让不同角色各司其职(例如,使数据科学家不用再沦陷于处理繁琐的模型更新和维护等工作),降低团队间整体合作成本。 第二,实现敏捷交付过程。通过自动化流水线等方式实现敏捷交付,从而提高模型交付效率,加快模型迭代速度,提高模型效果,提供更丰富、更优质的产品体验。 第三,构建全链路反馈闭环。通过贯通需求、开发、交付、部署、运营多环节的全链路,嵌入合规、监管、道德、安全等要求,形成完整的全链路流水线。同时,持续改进和简化原有运营和治理流程,高效率、低风险地实现持续集成、部署、训练和监控,形成有效的反馈闭环。 第四,统一管理AI资产。机器学习项目中数据、算法、特征和模型等资产是一个有机整体,通过对AI资产的高效统一管理,并加以风险防控和安全管理等手段,实现有效治理。 (三)MLOps实施原则 作为AI基础设施之一,MLOps促进各团队高效协作,提升业务价值产出。一般来说,实施MLOps需要遵循的原则包括自动化、持续性、版本化、可监控、可测试、可追溯、可复现、可协作等。 图2MLOps实施原则 来源:中国信息通信研究院 自动化包括模型自动化构建、自动化集成、自动化测试、自动化部署等,减少人工操作,提高操作准确性,是MLOps的核心。 持续性包括持续集成(CI)、持续部署(CD)、持续训练(CT)、持续监控(CM),是MLOps实现全流程闭环的基础。 版本化包括数据、模型和代码等AI资产的版本控制能力,是达到可复现、可追溯的基础,是保证资产可在组织各层面共享使用的基本能力之一。 可监控包括模型、模型服务及模型生产过程等维度的健康状态监控能力,以发现数据漂移和概念漂移,识别问题和改进方向,是维护高质量模型服务的基础。 可测试从模型评估、集成测试、系统测试、业务测试、生产验证等过程维度,保障模型的功能、性能和可信能力(安全性、保密性、可解释性、公平性等)满足需求,是保证模型交付质量的重要手段。 可追溯通过“效果→模型→实验→数据”全流程追溯过程的实现,提供模型实验及数据的血缘回溯能力,是根因分析的基础,是事后审计的手段,也是过程可信的体现。 可复现通过端到端记录模型构建过程相关数据、算法、参数等元数据信息,支持重现实验过程并获得高度相似的结果,是数据科学家开展模型工程的重要支撑。 可协作确保不同团队角色在数据、代码和模型上进行协作,是全流程可持续闭环实施的协作基础,是提高团队整体效率的保障。 二、MLOps发展现状与挑战 MLOps在国内外得到了广泛应用,并在多个行业取得了实质性效果。本章首先阶段性梳理MLOps发展历程,然后从落地应用和工具市场等角度分析当前发展现状,最后总结了MLOps落地面临的挑战。 (一)MLOps发展过程 1.发展历程 2015年至今,从业界意识到机器学习项目技术债给AI生产上线带来的潜在巨大影响伊始,MLOps前后经历了斟酌发酵、概念明确、落地应用三大阶段。 斟酌发酵阶段(2015年至2017年前后)。2015年Google在 ConferenceandWorkshoponNeuralInformationProcessingSystems (NIPS)上发布的论文《HiddenTechnicalDebtinMachineLearningSystems》首次提出机器学习项目技术债问题,一方面,机器学习项目具有传统软件工程的代码运维问题,这部分问题占比较小;另一方面,机器学习项目本身存在数据依赖关系不稳定、配置易出错、实验不可重现等问题,为模型的持续运维和迭代带来大量隐患。这篇论文标志着机器学习高效落地问题被明确提出和正视,也催生了产业界形成系统化的方法论和规范化的管理流程,解决技术债问题的强烈需求。 来源:《HiddenTechnicalDebtinMachineLearningSystems》 图3机器学习技术债示