博睿数据 场景与运维组织、流程、平台的关系是什么? 1.运维场景五要素2.一图看懂运维场景与运维组织、流程、平台的关系 人、机器人 场景 盘中盘后节假日其他 场景是运维组织和流程的主要服务对象,因此场景的特点和需求会运维组织是场景稳定、高效运行的保障。运维组织需要针对不同的 巡检、拨测、感知等值班、应急、服务工单等复盘、变更、清算等通关测试、演练等计划、文档、信息等组织的影响场景的支! 由场景整合组织、流程、平台能力流程能力 决问题 运维场景 组织能力 业务连续性保障 流程能力 平台是实现场景的重要手段之二。平台需要提供一系列的功能和工场景是平台功能和工具的使用者,因此场景的需求和反馈会对平台 ·容量管理变更发布管理、风险和安全管理、效能管理、服务管理、配置管理、事件管理、可用十的支圳 资源管理·效能管理性管理、效能管理、服务目录、知识管理、服务台管理、其他题和建议,帮助平台改进功能和工具的不足之处。 平台能力 信息安全·可用性管理 T服务台·架构管理 流程管理 ·运维开发运维分析 性能管理·技术创新资源管理监控 服务自动化操作信息安全 场景与运维组织、 二、构建场景地图 1.场景地图描述2.制定场景地图规划3.操作流程 场景是运维数字世界的组装材料,要能够各司其职、形成互联。所以,运维组织要基于可扩展性、体系化的运维场景地策划场景地图是场景建设的第一步。场景建设容易进入碎片化模式,如不提前做好场景地图策划,后期容易运维场景中包含大量的操作流程,这些操作流程需要根据实际落地情况进行调整。 C 图,指导运维场景的有序建设。有了运维场景地图,组织可以清晰地评价地图中哪些场景需要优先建设,当前阶段要重点景地图策划方向,选择不同的场景出现场景与场景边界不清,场景之间你中有我、我中有你的情况,最终造成功能重叠浪费。在该方面,下面 运维场景地图(提高业务连续性) 划分方式,在具体的实现上,建议梳理了“价值主张、现状梳理、规划蓝图、实施路线”四点。 夜间非工作日 围绕“高频、通用、高价值”3个 猛蝴 巡检自动化值班人盘后分析及优化监控闭环管理周末测试 特点,有先后地分步覆盖场景 价值主张关注痛点与运维组织期望, 以及解决痛点与实现期望要采用的解 在现状梳理时,组织可以思考以下问题;与ECC管理相关的与周末测试相关的 每周周末测试环境评审机制、大规模协作 巡检任务 监控处理 复盘会 调度任务管理 CAB时序 高频指经常出现的场景,比如每天 决方案。价值主张是为了确保运维场运维工作内容的描述 建设是价值创造驱动,真正地服务对外提供的IT服务 经理机制、监控处理操作机制、告警收敛任务时序管理机制等。 早会工单处理于运维组织与事件复盘机制等。 演练&混沌工程 工单&流程 有利于持续优化。 涉及哪些数据凯 痛点与期望匹配情况路 变更&CD通用场景主要针对更多的团队或人, IMS而不是针对某个人的工作场景。 变更评审相关的 与应急定位与处置相关的与事前保障相关的 服务台盖面,场景在“线上化、数字化、自动壶”的思路进行阶段划分,“实”指要CAB评审协同机制、重大重要信息系统上下游调 运行数据感知应用化、服务化”方面的目标,统一思路清楚地制定需要达成的战略目标,落实用和数据依赖管理机 知识管理、文档完善、预案管理、任务管理 不一定高频与通用场景才能产生高解涉及的项 价值,有些特定时间的低频场景也图有助于运维各参与方更好地分解目间越长,不确定因素越大,需要在不断 任务质量管控机制等 及定期回顾机制等 业务回归覆盖度保障机 监控平台IT流程平台 API网关(待完善) 自动化操作平台 运维数据平台Chatops任务消息 很重要,比如面向管理决策层的工 作场景。 标,并制定实施方案 三、五大典型场景四、典型场景案例 数字化运维转型场景 建立从代码到用户的全面可观测性 运维场景是每个运维团队沉淀下来的宝贵知识,不同企业的运维场景各有不同,场景融汇了团队在组织、流程、平台方面的智慧,数字化运维需要用“连接、数据、赋能”数字化思维重新将运维沉淀下来的智慧场景化。 1.应急管理场景3.周末测试场景 perationsManagement)一体化监控是指通过AlOPS(ArtificialIntelligenceforITOperations)智能运维 应急管理场景描述 痛点分析 场景分解周末测试的过程 痛点分析 场景分解 景下,通过使用机器 故障管理包括事前、事中、事后高频选代,动则生变;手工为有效提升业务连续性,运维组织需要周末测试通常包括以下几个步骤:周四前发人员调度难周末测试申请·测试事件管理 三个环节,其中应急管理场景关维护数据风险突出;架构设延长无故障时间(TBF),缩短故障恢复系统稳定性差·周末测试评审性能测试 可以大幅提高运维效 ,目标是最大限度地计健壮性和逻辑完整性问题时间。这就要充分利用数字技术,实现务,周四下午完成周末测试评审,并在周五 故障处理不及时·任务时序安排测试环境管理 率和准确性,减少人工干预和故障响应时间。 现、故障响应、故障定位、应急 字“洞察、决策、执 测试过程不可观测变更发布现场总结 BizOps业务运营evOps多态运维ecOps安全运维 建设聚焦业务与用户体验的运维体系赋能企业数字化效率提升安全态势感知和风险识别 DevOps(DevelopmentandOperations)BizOps(BusinessOperations)业SecOps(SecurityOperations)安全运 预案、工具平台、运行感知等方出;复杂架构运行状况的可平台化管理、运行可观察与定位工具试、周六晚进行测试后的环境恢复、环境恢测试环境准备环境恢复 面进行统筹建设。周末测试生产环境观察 2.变更管理场景_4.应急演练场景 共同负责软件开和运维工 变更管理场景描述痛点分析 场景分解 应急演练场景描述痛点分析 场景分解 在这种场景下,开发团队负责编写可靠且易 析,实现对业务流程的优化和改进。 变更管理是一项时间周期长、跨团队协变更带来稳定性风险;标准前移-变更评审常见的应急演练包括验证数据中心火灾防范能应急预案可操作性差 应急方案 于部署的代码,并使用自动化工具进行持续在这种场景下,运维团队需要深入了 团队需要密切关注系统的安全漏洞、入 同的复杂工作。从实施上,变更管理通变更选代越来越快,业务部门始终有抱怨; 基础设施高可用性、PaaS平台健壮性、 应急预案准确性不足·演练计划 解业务流程和关键指标,并通过监控侵行为和异常活动,并及时采取相应的常涉及软 加快软件交付速度,提高系统审、软件发布、变更 、变更后 织应急 关键岗位人员技能 的可靠性和稳定性。 高效率、降低成本、增强竞争力。 络攻击的风险,保护企业的核心资产 验证、变更运营分析等工作紧急变更数量太大,导致团队成员疲于应付。变更管理运营是否达标、对问题的应急能力等。演练引发问题·演练收尾总结