基础设施运维数据体系建设实践 周鹏飞 01基础设施运维数据体系总体介绍 目02运维数据平台建设 contents 录03运维数据场景化应用 04运维数据体系发展展望 PART01 基础设施运维数据体系总体介绍 运维数据体系建设的道法术器 道目标&原则 数字孪生、需实一致、虚实一致 法战略方法 场景驱动(服务场景、运维场景、运营场景) 科技优先(自动化、系统化、平台化) 术实现路径 器工具平台 指标度量(数据质量指标,营运结果指标) 平台支撑(横纵贯通) 制度跟踪(闭环运行) 服务平台(IT资源管理平台) 能力平台(云、网、安、IDC、监控、作业) 数据平台(基础资源CMDB,数据中台) 营运平台(运维工作台、运营工作台) GOPS全球运维大会2024·深圳站 基础资源能力平台 安全自动化 日志分析自动 化 主机作业自动化 私有云 宿主机 存储设备 虚拟机 公有云 云平台 虚拟机 PASS服 务 桌面云 云桌面 瘦终端 网络与安全 路由器交换机 负载均衡 DNS设备 通讯线路 防火墙 基础资源对象 IDC 机房 机架 机位 电力电源 制冷设备 数据平台 配置数据 人员数据 组织数据 应用数据 资源数据 财务数据 运行数据 设备监控日志监控 业务监控 拓扑数据 运行配置 运营平台 质量运营 风险运营 成本运营 效能运营 服务平台 资源服务 资源管理 技术支持 运维平台 根因定位 常规升级 故障处置 资源用户 云 设备监控自动化 数据中心自动 化 存储自动化 网络自动化 云自动化 运维管理员 运维数据体系总体设计 数智中台 批处理 任务调度 AI模型 流处理 运营管理员 GOPS全球运维大会2024·深圳站 运维数据体系总体架构 质量管理 成本管理 基础设施运营台 数据 赋能 效率管理 风险需求配额预算 云管理平台 基础设施数据湖仓 成本效能风险质量 私有云 SDN 公有云网络 公有云 桌面云 宿主机 存储 公有云PaaS服务 网络监控动态基站 自动配置 告警管理根因分析 网络自证 机房管理 库房管理 带外管理 动环监控 自动化装机 网络与安全管理平台 数据中心管理平台 自动化管理平台 脚本管理系统巡检脚本执行基线检测 混沌工程 故障注入故障恢复故障编排故障感知 数据数据 分析分析分析 T+1 数据 标准化数据(配置及时序) 资产组织应用 设备监控 监控平台 日志分析平台 日志接入 数据数据 整合清洗 原始数据 日志分析 告警管理 CMDB(应用系统、基础设施资源) CMDB 云管网管 实时数据 网络及安全 交换机 负载均衡 路由器 线路 公有云防火墙 公有云LB 公有云 存储 SAN NAS GOPS全球运维大会2024·深圳站 VSan 公有云C 公有云B 公有云A 私有云 虚拟机 物理机 基础设施服务台 基础设施运维台 计算资 源服务 存储资 源服务 网络资源服务 数据中 心服务 安全服 务 场景解 决方案 个人运维工 作台 运维解决方案市场 PART02 运维数据平台建设 建设挑战 行业挑战 业务挑战 技术挑战 行业特性,券商业务基础设施服务个性化场景多(极速网络,组播网络,超频计算等),标准化难度大。 基础设施是数字世界与物理世界的底层连接,无法完全去除人工操作,存在虚实不一致挑战。 基础设施运维数据体系涉及多个专业领域(云、网、数据中心、安全、操作系统),技术面广,建设门槛高。 GOPS全球运维大会2024·深圳站 建设思路 消费 数据 生产 治理 消费为始,消费为终,场景驱动 生产是源,溯本求源,标准优先 治理为辅,度量作尺,质量优先 GOPS全球运维大会2024·深圳站 数据生产能力建设 起步阶段 聚焦质量 发展阶段 聚焦效率 成熟阶段 聚焦成本 面向 运维管理 面向 用户服务 面向 资源运营 •资源管理台账 02 基础资源运维监控 •用户资源台账 •设备状态监控数据 •运行日志监控数据 •告警数据 用户服务流程化 01 •用户需求数据 •交付过程数据 •交付结果数据 02 资源交付自动化 •自动化采集数据 •自动交付链路关联数据 01 基础资源CMDB 01 成本运营 •资源定价数据 •多维度账单数据 02 效能运营 •资源配置数据 •资源运行效能数据 •应用资源属性数据 03 质量运营 •业务视角资源监控数据 •资源拓扑数据 04 风险运营 GOPS全球运维大会2024·深圳站 •资源容量数据 •资源演练数据 数据消费能力建设 数据集中,消费分散 1统一汇聚 异构数据源统一接入数据湖仓,实现数据归集 场景应用成本运营质量运营效率运营风险运营运维解决方案 数据计算SQL批处理Python批处理Flink流处理数据API 2统一建模 按照领域建立宽表数据模型,构建扁平化数据结构 统一数仓MysqlHiveClickHouse l g 数据采集离线同步实时同步 3统一接口 应用场景遵循同一套领域数据消 费模式 异构数据Mysq OracleDaMen GlodenDBTiDB OpenTSDBES 4场景分散 根据需求自主建设基于场景化的 数据计算分析和展示 领域能力 平台 ITSM基础资源CMDB应用CMDB云管平台网管平台 数据中心管理平台监控平台作业平台演练平台 GOPS全球运维大会2024·深圳站 数据治理能力建设 无场景不度量,无度量不治理 场景驱动 •数据消费驱动数据完备性建设 •数据应用驱动数据治理能力建设 指标度量 •主数据度量指标 •场景化关系数据度量指标 源头治理 •问题驱动制度流程优化 •数据生产环节实现治理闭环 2数据消费 基于运维或运营场景建设数据分析和展示能力,供管理员使用 1数据生产 用户发起ITSM流程,管理员交付实施,资源数据进入基础资源CMDB 4数据治理 5制定方案 人工确认数据生产环节问题,形成数据生产流程优化方案 3数据度量 基于应用场景建立针对性的数据度量指标 通过场景化周边数据和自动化采集能力,通过双向比对,多维数据相互验证实现指标度量自动化 GOPS全球运维大会2024·深圳站 数据中心拓扑数据治理 数据治理原则: 非软件定义IAAS资源数据 (交换机,防火墙等) 软件定义IAAS资源数据 管理能 力 自动化 能力 数据 (云) 非原生数据 原生数据 区域核心 区域汇聚 接入 宿主机 物理设备关系数据治理: 设备上架流程 分配接线关系 人工上架 基础资源CMDB 连接关系采集数据 网管自动化采集 (LLDP、MAC转发表、端口状态) 准确性度量指标 基础资源CMDB 云管自动实施 虚拟机申请流程 集中式存储 虚拟机 宿主机与虚拟机关系数据: GOPS全球运维大会2024·深圳站 PART03 运维数据场景化应用 GOPS全球运维大会2024·深圳站 服务场景—服务器上架 场景痛点 上架场景影响因子多,需要综合考虑机架机位空置,机架电流载荷,服务器额定电流,业务网络接入要求,机柜交换机端口空置,机柜使用成本和布线合理性等因素,通过人工很难挑选出合适的机位。 机架机位自动分配 接入交换机端口自动分配 存量机柜机位合并优化策略推荐 GOPS全球运维大会2024·深圳站 运维场景—网络运维保障 发现定界定定位位处处置置 场景痛点 干扰告警多,导致发现难,低级告警也可能影响核心业务 “X”故障监控逃逸风险,导致发现难,存在无法通过资源监控发现的故障隐患 点状告警,人工无法推断面上态势,导致定界难 回归运维本质,构建围绕业务的监控感知能力 数据化解决方案 GOPS全球运维大会2024·深圳站 效能画像(ABC) 运营场景—虚拟机资源效能运营 1 2 3 4 5 6 回收降配 低效资源 资源治理(C) A.应用系统视角B.用户组织视角C.资源管理视角 监控平台获取 虚机效能数据 效能评估算法 计算效能标签 管理员发起 效能提升流程 跟踪流程状态 统计治理结果 邮件提醒超期未治理用户 PART04 运维数据体系发展展望 GOPS全球运维大会2024·深圳站 发展展望 业务与技术双向奔赴 仰望星空,脚踏实地 展望未来 基础设施支撑技术(如SDI)的发展,推动业务场景标准化自 动化,生产出更多优质原生数据,降低运维数据体系建设难度。 数据分析技术(如AI)的发展,降低数据治理与应用门槛,更好地赋能营运场景。 立足当下 部分新技术在场景应用方面未取得很好的效果。 综合运用多种手段(管理或技术)实现最好的业务结果。 Thanks 高效运维社区 DevOps时代 荣誉出品 GOPS全球运维大会2024·深圳站 THANKS 感谢大家观看