高质效创新组织 数字化时代下科技运营转型探索实践 张炜 马上消费金融科技运营部负责人 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 张炜 马上消费金融-科技运营部负责人 拥有超过16年的技术运营管理经验,目前担任马上消费金融股份有限公司的科技运营部门负责人。 在公司成功实施了多项DevOps实践,提升软件交付的速度和质量,同时确保了生产环境的高可用性和稳定性,基本形成需求到生产端到端闭环运营管理。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 数字化技术加速融合 目录 创新与风险兼顾的研发管理体系 高效稳定的IT服务与运营体系 数字化IT投资管理 01数字化技术加速融合 GOPS全球运维大会暨XOps技术创新峰会 数字技术以各种形式融入企业原有技术体系,企业形成新的技术创新能力 从传统工具到新一代智能工具 工具革命 以自动化提高工作效率 新一代智能工具 工具革命 +决策革命 决策 革命 传统工具+经验决策 基于数据反 数据运营反馈与馈提高决策 决策 科学化、精 准化 从经验决策到数据决策 技术广泛应用 技术运营管理变革 •工具的自动化和智能化,要求更高工作效率和质量 人工智能 •学习能力 •推理能力 •语言理解 •自适应性 云计算 •资源池化 •快速弹性 •服务化、标准化 •灾难恢复、数据备份 •决策过程的数据化和实时化,决策更加精准和高效。 大数据 •体量大 •速度快 •多样性 •可视化 微服务 •小型化 •去中心化 •可扩展 •松耦合 DevOps的融合多云和混合云策略容器化和微服务架构 DevOps实践的普及正在改变IT运营,通过持续集成和持续部署流程,实现更快的软件交付和更紧密的开发与运营团队协作。 企业越来越多地采用多云和混合云策略,这要求IT运营能够管理多个云平台和本地环境。 容器化技术(如Docker)和微服务架构正在改变应用程序的部署和管理方式,要求IT运营适应这些新方法。 业务连续性和灾难恢复数据驱动的决策 随着远程工作和分布式系统的普及,确保业务连续性和有效的灾难恢复计划变得更加重要。 随着大数据的深度和广泛应用,企业正在利用数据分析来优化运营流程、提高客户满意度,并做出更加明智的业务决策。 技术运营通过数据驱动持续改进。 在市场快速变化和技术加速融合过程中,IT运营要确保变革顺利进行,同时为企业带来持续的价值增长 业务发展对IT快速响应与灵活交付的挑战 IT运营面临的挑战. 技术融合加速对IT稳定运营管理的挑战 商业价值的不确定性对IT科学投资决策的挑战 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 DevOps目标是让研发更快,让业务更稳,让决策更准 快 稳 准 实现IT运营价值创造需要完成的模式转变 量化 架构轻 传统模式 架构 厚平台、薄应用、微服务 单块架构 敏捷交付 瀑布式开发 新IT模式 API APIs 合作伙伴 微服务 松耦合 第三方交付 敏捷交付 交付 持续化 交付 运营 开发运维一体化DevOps 开发运维分离 开发运维一体化-持续交付 动化 管理自 基于云架构的管控模式 竖井式 一体化 基础设施 弹性资源管理 物理资源 软件定义基础设施,服务化 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 实现IT运营价值目标需要具备的六项能力 01 连续性保障能力 02 客户服务能力 IT成为价值中心 重点是让公司更好的实现“提升客户体验、加快业务创新交付、为运营提能增效”业务价值 04 03 06 快速交付能力数据决策能力 05 IT服务能力 运营协同能力 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 02创新与风险兼顾的研发管理体系 GOPS全球运维大会暨XOps技术创新峰会 支撑业务方向一致性 15年-17年 快速响应市场 18年-20年 创新、个性化服务 21年-24年 权责明确的高效的科技运营组织模式与运行机制 集•企业规模较小,业务单一分中•快速决策和统一行动散 式•组织结构:金字塔形式 •依赖性高层管理者、市场响应慢 •需要提高对市场变化的适应性和灵活性时 •决策分散、快速响应市场变化和客户需求 •部门墙、高协调沟通成本、资源分散 联•各业务领域快速适应新技术和创新时 邦•自治与合作并存、分权与集权平衡、灵活性与统一 式性结合;激发各技术条线的创新和市场适应性 •需要较高的管理能力和协调机制 �健康的科技运营系统能够应对环境变化、应对意外,并自我成长 自组织性 •团队充分自治 •去中心化决策 •创新文化 自适应性 •快速响应技术环境的变化 •灵活的工作流程 •持续学习和进步 层次性 •多层次管理结构 •模块化设计 •信息流动和协作 �组织模式:集中与分散的平衡 �运行机制:资源共享与协同工作 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 需求角度 • 2 需求来源归属PPR(项目)、PER(项目 关联/系统功能完善)、PIR(问题) 项目角度 • 1 PPR遵循项目管理方式,有生命周期和 阶段定义; •PER/PIR遵循需求管理方式,完成上线 即为结束; PIR PER IT采购类 基础建设类 开发类PPR 需求管理:承载DevOps开发模式的PPR/PER/PIR管理 三种开发模式:支持不同场景的需求实现,在高频发布场景下保证生产发布的质量 开发类紧急变更 开发类迭代实现 开发类项目实施阶段 项目/需求/紧 急变更 需求生命周期 需求提出 需求分析 需求评审 需求设计 需求实现 需求验收 需求变更 需求阶段 瀑布模式 增量迭代模式 敏捷模式 研发模式 需求收集 需求评审 需求活动 需求分析 需求规划 需求定义 测试准备 回归测试 测试活动 SIT测试 UAT测试 联调测试 上线发版 开发活动 架构设计 架构评审 UI/UE设计 系统设计 设计评审 编码实现 代码评审 单元测试 关键活动 DevOps平台 平台工具 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 (1).需求管理:场景驱动,形成高效流动的“价值漏斗” 价值创造以需求的形式承载,需求管理的目标是有效识别并驱动价值流的快速流转。 •需求和价值流的管理范围局限在IT内部无法适应数字 化转型所带来的快速响应市场的要求 •业务部门、研发部门存在严重的协作鸿沟,导致目标、资源、时间等诸多因素的不对称,并且相互交叉、干扰 •IT花了时间和精力,投入了资源,但交付质量欠佳 •需求来回拉扯,沟通成本高,效率低 •需求交付的效果与用户预期偏差大,用户满意度低 传统IT的需求管理多是单向接收业务部门诉求,然后按研发流程进行需求分析、计划、开发测试和发布交付,在IT内部,价值流本身没有问题。但在当下确出现了越来越多的交付问题,例如: •以场景驱动,建立价值流漏斗,形成从输入到输出的全价值链交付。 •从需求提出、评估分析、排期开发、测试验收、上线交付等各个环节进行全覆盖,对研发过程、数据、资源实现透明化。 •业务部门可以快速得到反馈,研发部门能够理解需求本质,从而做出更准确的评估和方案。 需求管理和敏捷协作扩展到业务领域: GOPS全球运维大会暨XOps技术创新峰会2024·北京站 度量的目标是让效能可量化、可分析、可改进,通过数据驱动的方式更理性的评估和改善效能 技术目标是持续提升研发流程的效率、保证规范的执行、提升质量和效率,持续提升是精益的更高追求,寻找提升空间需要思考的问题是: 我们的流程是高效的吗?阻碍在哪里? 我们的规范落地执行情况如何?流程控制是否存在漏洞? 我们的研发质量和效率如何?短板在哪里? 度量指标能够客观反映现状,帮助我们看到现状与目标之间的差距 然而,这只是技术视野,我们还要了解业务方的期望,才能知道我们的视野是否足够开阔,才能决定改进的方向,不能闭门造车 能够提供更全面的IT产品和更高效的IT服务 能够更快地响应需求及完成交付 能够为业务应用更稳定地提供更高质量的交付 我们的最高目标始终是为了更好地支撑业务,要了解业务方最迫切所需,及时调整技术改进方向,使技术目标与业务目标保持协调 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 交付质量 目标是促进端到端高质量交付,避免不必要的错误和返工,驱动内部、外部质量改进。 交付效率 目标是促进端到端及早交付,用最短时间顺畅地交付客户价值。它反应的是整个团队(包含产品、开发、测试,部署)对用户需求的响应速度。 完整的价值度量体系,量化产研关键活动,指标驱动效率和质量持续改进 风险控制 采取各种措施和方法,消灭、减少风险事件的发生,或是降低风险事件发生时造成的损失。它反应的是当线上系统或应用发生故障时,多久可以消除业务影响。 03高效稳定的IT服务与运营体系 GOPS全球运维大会暨XOps技术创新峰会 SRE稳定性时空:四个维度支撑整个稳定性保障作业 技术管理和运维活动 稳定性保障对象 稳定性保障体系指标度量 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 平台能力建设故障和稳定性生命周期 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 优势 •“联”的优势:形成统一的规范、流程、工具 平台框架体系,便于统一管理和生产高效运行 •“邦”的优势:各SRE团队职责边界清晰,能 够更高效、更便捷地服务于本团队的研发生产 工作 科技运营 研发团队A 研发团队B SRE SRE 运行机制 •各团队SRE为“邦”,分别开展监控巡检、变更管控、容量规划、NCMDB数据管理、ONCALL应急(含演练)、问题复盘跟进等6项核心工作 •科技运营团队统筹共性的体系、流程、工具平台,建立沟通协作机制,联系各团队SRE总结分享和推广最佳实践 联邦制SRE模式:倡导SRE文化,推行联邦制SRE运维模式,促进研发、运维高效协作 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 服务容量和业务容量:建立服务SLO稳定性标准 目标 建立服务SLO稳定性标准 效果1:建立服务稳定性的量化标准 效果2:基于服务稳定性标准的主动预防机制 效果3:建立服务稳定性可视化度量 建立业务、应用、组件等的服务稳定性量化标准,基于标准观测服务状态。 明确标准,基于服务稳定性标准的主动预防机制 可视化生产所有服务的的稳定性运行情况(错误消耗、SLA达标情况等)。 优化改进:分层梳理SLI、SLO、SLA优化改进:建立服务治理闭环处理流程优化改进:形成完备的稳定性度量体系 ①分层梳理服务目录和服务级别 ②管理服务SLI/SLO/SLA ③治理服务质量 发布管理:灵活多样的部署流水线,自动触发代码检查和自动测试,提升发布速度和质量 v2 v2v2 蓝绿发布模式 金丝雀发布模式 发布前负载均衡 v1v1v1 发布后负载均衡 v1v1v1v2v2v2 流量模式 发布前负载均衡 v1v1v1 先发一台验证负载均衡 v1v1v1v2v2v2 滚动发布负载均衡 v1v1v1v2v2v2 流量模式 发布前 v1 v2 v2v2 先发一台 v1 再发若干台 v1 直到全部发完 v1 流量模式 滚动发布模式 负载均衡 v1 v2 v2 v2 负载均衡 v1 v2 v1 v1 v2v2 负载均衡 v1 v2 v1 v2v2 负载均衡 v1 v2 v1 v2v2 GOPS全球运维大会暨XOps技术创新峰会2024