一汽-大众一体化技术运营平台落地实践 姓名:牛昊 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 牛昊 一汽大众技术运营负责人 先后就职于长春理想科技、亿联银行。现一汽-大众技术运营负责人负责公司技术运营工具及体系的建设,专注于自动化运维、配置管理、可观测性等技术运营平台和体系建设。 建设背景 实现路径及成果 目录困难及挑战 未来规划 01 建设背景 背景 运维 手工运维为主批量操作效率低、易错 响应 用户发现问题才响应 资产 各维度的资产无清晰台账 资源定位困难 服务 服务固化 大量服务提供缺失 66 GOPS全球运维大会暨XOps技术创新峰会2024·上海站 围绕应用系统建立IT资源清单 IT资源的核心数据源 可自动维护IT资源拓扑 基础监控:主要监控资源自身运转情况 应用链路监控:主要监控应用之间和内部调用情况 日志监控:主要监控应用和组件输出日志 支持自动化运维脚本管理 支持低代码的自动化流程编排及管理 支持定时外部调用等灵活触发模式 支持低代码审批流程编排 可以联动配置管理、监控和自动化 支持移动端审批 平台能力简述 配置管理 监控管理 自动化运维 ITSM 平台当前定位 运维分析 异常检测 安装部署根因定位 体验优化 能力层 数据运营 运维大屏 服务门户 移动运维 工作台 监控中心 场景层 监 监控平台 管配置平台 作业平台 控 调度编排 服流程中心 营 数据与AI 数据接入样本训练数据清洗模型调参数据开发模型输出 采集插件 策略配置 模型管理 业务拓扑 文件传输 脚本执行 任务编排 任务执行 流程引擎 数据管道 日志提取 关联拓扑 配置文件 脚本管理 海量开发 作业调度 过程可视 流程联动 服务监控 API 自动发现 API 定时作业 …… 权限控制 …… …… 对象层 面向资源 面向应用 面向业务 服务请求变更管理事件管理问题管理知识管理ITOM联动 ITSM 容量管理限流管理线上压测 …… …… …… 容量管理 事件应急灾备应急预案管理应急协同演练管理混沌工程 灾备应急 多云运营 资源服务资源编排 安装部署 多云纳管 …… …… 多云管理 投产发布 灾备切换资源交付 安装部署 巡检管理 安全自动化脚本编排 自动化 配置维护 配置分析配置报表 安装部署 应用架构 CMDB 可观测数据 告警中心业务监控 安装部署 APM 资源监控故障分析 可观测 …… IPMI SNMP 数据管道 文件管道 命令管道 接入层 8 02 实现路径及成果 平台发展历程 基础建设 能力提升 2023.1-2023.6 平台搭建及各模块调试基础能力建设验证 基础数据初始化 2024.6- 2024.7,自动化运维模块通过优秀级认证 2024.10,配置管理优秀级认证 2024.10,基础监控通过优秀级认证设计可观测建设方案 可行性预研 2022.6-2022.12 行业对标 建设总体方案定制平台预研 运营建设 2023.7-2024.6 CMDB数据深度治理并建设持续治理流程监控策略和方案落实 自动化向场景化建设 配置管理建设成果 CMDB配置管理数据库 解决了什么问题 有什么 理清IT资产家底,分类别管理 业务应用层 资产 平台资源层 140+类 170000+条 人 虚拟资源层 组织 物理资源层 系统 基础设施层 谁在用 资产 公共资产层 … 用不用 资产关系维护 管理流程闭环 资产自动采集 IT资产数据生命周期管理,标准化流程,避免隐形资源风险 自动化 IT服务管理 自动发现 4000+ 条 40000+ 条 60000+ 条 10000+ 条 4000+ 条 50000+ 条 形成资产关系拓扑 自动化运维成果 收益案例 基础建设场景支撑 UAOM 统一应用运维平台【操作台】 Before: 1000台x10min/台=10000min After: 4hx60min/h=240min 基础操作脚本630+,复杂逻辑编排130+ 覆盖软件安装、基础运维、高可用演练、应用部署等8大运维常见工作分类 DevOps研发效能平台 【虚机部署流水线】 时效提升: 97.6% 12 监控体系建设成果 监控体系分层 端监控 应用性能监控 已接入子系统数260+ 业务层 监控 应用层监控 1、应用性能监控 2、日志 统一日志管理 已接入子系统数500+ 中间件监控 基础 系统层监控 监已接入操作系统 控 4300+ 常用中间件数据库监控已覆盖 1、容器监控 2、操作系统运维基础采集项 3、平台监控 4、网络监控(交换机、路由器、防火墙、VPN) 5、物理机 1、中间件、缓存中间件 2、数据库中间件、数据库连接池 3、Web服务中间件 1、业务属性监控告警 1、用户终端(Web网站、App、小程序) 2、移动端(H5、小程序、Android系统、iOS系统) 消息发送 统一告警 Alert 对接工单 统一运维平台(UAOM) 建设中已完成13 03 困难及挑战 一体化运维的基本盘——配置、自动化 运维业务 ITSM 操作场景 多云管理 灾备应急 容量管理 可观测 AIOPS 服务请求 投产发布 多云运营 灾备应急 容量管理 可观测数据 根因分析 变更管理 灾备切换 资源服务 预案管理 限流管理 告警中心 问题预测 安事装件部管署理问题管理 知识管理 安资装源部交署付巡检管理 脚本编排 安资装源部编署排多云纳管 安应装急部协署同演练管理 混沌工程 安线装上部压署测 安A装P部M署资源监控故障分析 自动化(AutoMation)执行底座 统一的数据支撑运维执行任务请求 配置(CMDB)数据底座 对象 运维D B 操作系统数据库中间件 虚拟机宿主机云资源 物理机网络设备安全设备办公系统网管系统资产系统 配置管理困局之固化思维 01.职责和定位不明确 从基础设施开始,容易建成资产管理 兼职团队建设 一次性项目想解决问题 03.流程建设不全面 数据与流程无法打通 只建立配置管理流程,而非业务管理流程 总是建不成? 02.难以舍弃的excel 模型建立、数据收集都是excel推进 数据量小时成本低 统计灵活 04.关系和关联缺失 只收数,不建立和维护资源之间的关系 数据统计完成后,无关联的使用场景,无法有效验证 配置管理迈向成功的开始 快准狠 定义要快 初始化要快 调整要快 定位准 场景准 增量准 敢于暴露问题 敢于使用自动化手段 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 配置管理落地的技术支撑 数 快据 化 Shell 动 自Bat Powershell Python 化Groovy +Restful 流 程SNMP 化IPMI 命名标准化 慢 标准化 导入导出标 业务管理流程 资源管理流程 数据中心管理流程 …… 技术架构标准化 服务标准化标准化 组件模版标准化 本 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 配置管理困局之数据治理——理想 自动采集+流程回写 活源(增量) 确保新流入的水是干净的,如果源头 的质量都无法保障,后续的治理无从谈起; 水池(CMDB) 加强审计和运营 净水(存量) 持续净化水池中的存量,也就是对存量数据进行 持续的审计和改进,通过绩效驱动,责任到人; 消费场景闭环 促流(流动) 让水循环加速流动起来,不要让CMDB变成 一潭死水,不流动的水,久了就会发臭 配置管理困局之数据治理——现实 配置项关系 配580+ 置模型情况 配置项140+ 配置项属性 3900+库 中数据片段 配置管理规则引入提升质量审核能力 场景编排 运营数据源 典型规则引 擎 配置数据工单数据 样成本/容量数据 例 …… 处理优化决策 自动化——传统运维人的自我革命 态度端正能够认真完成本岗本职各项工作 开发者 虚心学习 操作者 随机性个性化 传统自动化运维运维 计划性通用性 一次性复用性 自动化——如何入手 金融业演进参考 工具选择参考 脚本语言支持 尽可能使用原生支持shell、bat、powershell、 python的工具,方便快速覆盖常用的资源对接 跑批 数仓批量存款批量 …… 专业化 云管 数据库自动化网络自动化 …… 场景化 部署发布自动化巡检标准运维 编排能力 需要具备逻辑流程编排能力,是场景化建设的重 平台化 灾备演练混沌工程 …… 要支撑,比如并行,判断、循环、定时等 有无代理 无代理:无资源占用,需要直连服务器高危端口 有代理:资源有占用,风险可控性更高 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 自动化-场景化和专业化探索 应用运维操作台统一数据库管理平台 提供应用常用的运维操作,如组件/应用启停、服务器/进程状态查看,文件操作等常规运维工作,避免登录服务器高权登录的不可控情况,同时支持批量操作提升效率 提供数据库的创建、变更,用户权限调整,sql执行,并实现和业务流程的对接,流程审批完成后进行自动的数据库发放和变更。正常进行数据脱敏能力的对接支持。 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 04 未来规划 一体化运维未来重点探索方向 ULMS 统一日志管理平台 日志数据 传统监控体系分层 可观测性体系分层 端 监控 告警 CMDB 配置管理 配置关系 业务层监控 概况 故障分析平台 应用层监控 排错 中间件监控 剖析 可观测数据清洗聚 合 运维工单 系统层监控 传统监控通过监控不同类型对象发现问题 依赖分析 主动发现,综合数据分析问题、识别根因 Monitor基础指标监控 指标数据 APM 统一应用性能监控 可观测性 核心数据 链路数据 Alter统一告警 告警数据 UAOM 统一应用运维平台 26 Thanks 高效运维社区DevOps时代 荣誉出品