您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[帆软]:云智:交通智能业务运维体系建设 - 发现报告
当前位置:首页/行业研究/报告详情/

云智:交通智能业务运维体系建设

信息技术2023-02-24帆软李***
云智:交通智能业务运维体系建设

!"#$%&$'() *+,- !"#$ !"# IT#$%&'( 1 !"#$%#&'()*+,- )*+,#$-./0 & D/01234(5 )*+,#$12/3 3 67*+fi9:;<=>4?@A' )*+,#$4567 ( BCflEFH"IffiKLMENOP IT#$%&'( !"#$%#&'()*+,- CH#$T&R)* !"#$%&'( 业务流程复杂,影响面广 安全度要求高,网络环境隔离 业务可靠性要求高 各类系统运维水平发展不均衡 •与民航局、航空公司、海关、边防、检疫、空管局、航站楼的接口繁多 •业务流程复杂,系统信息相关性强,故障具备天然的传播链。 •生产网分为:主干网、离港网、安防网、办公网等 •建设和维护需要考虑网络的 隔离问题 •机场业务正常、连续运作,关系到旅客、地区、国家的交通、经济秩序、形象声誉 •机场大屏、终端设备数量多,不易维护,但其可靠性直接影响到旅客的用户体验 •行李系统、集成系统、离港系统、屏显系统、广播系统等核心系统具备来自不同厂商的监控工具 •各类监控工具的发展水平不一,未实现统一管理 复杂的业务流程需要 能掌握业务流程之间的关联关系,在出现故障时,可以确定影响范围,减少损失 能提出结合机场航空业运维特点的方式,轻量化解决问题 隔离的网络环境需要 关注网络链路、网络设备的管理 同时,需要考虑到不同隔离网段如何进行统一的纳管 运维工具需要考虑跨网段的数据传输和安全问题 业务的可靠性要求需要 保障核心业务的基础设施、网络、应用的可用性和可靠性 正确区分核心业务,确保运维管理的触角覆盖到各类业务 系统运维水平发展需要 掌握现有系统的运维状况,补足缺陷,实现统一运维管理 结合不同系统特点,比如航显系统使用工控机,需要对硬件、软件均进行有效管理 )*+,#$%&'( 机房数据中心运维 应用性能监控 服务流程有效管理 自动化运维体系建设 •随着业务发展,对基础设施的需求增多,采用混合云方式,具备大型自建机房 •对数据中心人、事、物需要进行综合管理 •需要对能耗进行管控 •需要更灵敏地洞察业务变化 •快速准确地定位瓶颈 •关键业务决策缺乏数据依据 •运维、开发、运营存在沟通障碍 •需要业务运维的考评依据 •需要精细化管理 •需要量化IT人员工作 •需要保障业务人员与IT人员的沟通渠道畅通 •需要以管理层为核心的机构、制度、体制的优化 •基于流程与配置管理的自动化运维体系建设,利用自动化解决重复性的服务请求 •利用自动化能力,实现已知故障的快速治愈 •需要形成管理闭环 数据中心运维需要关注 能耗管理 3D可视化 动环、硬件、软件监控 运维体系制度建设 资源管理 应用性能需要关注 对应用性能的有效管理手段; 对于应用代码的执行效率、数据调用、第三方接口调用的监控手段; 对于代码执行、堆栈、长SQL语句的分析手段。 服务流程流转需要记录 向业务人员提供的服务需要明确的服务目录清单 故障管理、变更管理、问题管理、故障转问题管理 服务水平相应的管理和统计手段 自动化运维体系建设需要关注 积累丰富的自动化脚本库 支持多种自动化场景编排 对权限进行细粒度的控制 -.+,#$%&'( 网络关系复杂 故障影响范围广 传统的管理手段 •收费网是核心网络,网络还分为办公网、监控网等 •不同网络之间相互传输和 使用上存在困难 •网络设备分散在路段管理、 收费站、门架等处 •任何的故障出现都有可能造 成极大的影响和问题 •对网络传输的可靠性要求高 •存在物理位置上的跨越,对分界定责的要求高 •设备管理采用厂家提供服务的方式,对厂家的实效性和服务水平承诺需要进行管理 •多种厂商自带工具,缺乏一 个统一的监控可视化平台 网络管理需要关注 •分散在各地的网络设备, 尤其是在户外的设备如何 实现统管 •设备来自不同厂商,厂商 提供的原始工具的管理 故障处理需要关注 •对易被忽略的细节问题要重 点关注,如设备和链路的管理 •不同路段在不同地理位置,快速定责定界,对故障处理 非常重要 管理手段需要关注 •不同厂家的设备需要配备 不同的服务管理流程 •一体化的平台需要能够纳管多厂家多型号多批次的设备设施 )*+,#$-./0 D/01234(5 CH#$T&R)+ /01234–67#$89:;<=> 客服机器人 智能运维平台 智能算法 机器人学习、问题解决、根因定位分析、故障自愈、 容量预测等智能场景应用 ITSM 知识库 自动化 智能算法 运维处理流程、行为动作和解决方案的经验沉淀 资源监控 指标监控 CMDB 数据中台 日志监控 算法中台 监控平台 资源自身健康状态及资源关联影响的信息 网络监控 系统监控 应用监控 ITSM 呼叫系统 动环监控 监控平台 服务器、网络设备、应用系统、操作 系统、业务操作、运维工具,指标、机房环境,人工输入等原始数据 知识的应用 应用 智慧 Wisdom 预测未来 知识 结构化的信息 归类、沉淀 Knowledge 知道how和why 信息 加工处理后有逻辑的数据 存储、分析、处理 Information 知道who,where,when和what等 数据 原始数据或素材 记录、监控、采集 Data 日志,性能,满意度调查,呼入数等 67#$7?@AB@ 第一阶段第二阶段第三阶段 能感知 会诊断 运维工作中�现的运行异常和故障等,通过智能化手段协助 自适应 适应IT环境变化,动态优化调整 自学习处理方法、顺序、参数、边界 多种检测手段识别系统状态,及时、准确发现问题,评估影响 或实现异常判断、故障定位、根因分析等运维活动的能力 相关数据进行主动学习,积累、完善模型、规律等运维过程 或约束条件,以取得最佳处理效果的能力 可决策 会描述 展示、阐述运维对象的属性、状态、关系及其变化历史等信息的能力 根据运维数据分析结果,提供综合分析结论,为后续的处置、决策提供依据的能力 自执行 已知运维场景做�的半自动化或自动化处置能力 9 )*+,#$12/3 67*+fi9:;<=>4?@A' CH#$T&R)3 67CD#$EFGHIJ. 第一阶段:补全工具,统一告警 第二阶段:打通流程,全面可视 第三阶段:健全体系,驾驭智能 应用性能管理 (通用) 网络质量管理 (公路) 基础设施监控 (公路) 告警 事件统一 告警管 运维监控中心 分权分域的运维工作台应用健康度管理 平战一体的运维可视化大屏资源状态可视化 运维工作可视化 自动化运维 操 作 大屏可视化迭代 智能运维(AIOps)场景异常检测+容量预测+根因定位 数据中心管理理工单 (通用) ITSM服务管理 智能应答机器人 工控机状态监控 (机场) 场内外接口监控 (机场) 日志分析数据 指标体系管理建设咨询输出数字化运维指标管理体系运维大数据平台配置管理数据库 基于因果算法的指标关联性分析深度自动发现的配置管理 (通用) 数据采控统一管理平台 健全的运维管理制度和体系 KӳM>NOPQRSTBUVWOPXY 以业务交付链为抓手,关联交付路径上的所有监控资源 前端实时感知用户 前端 (网络防火墙、负载均衡) 用户 中端 (应用APP、ESB) 后端 (核心、大机) 设备运行状态 设备运行状态 设备运行状态 系统运行状态 系统运行状态 系统运行状态 业务交易质量 业务交易质量 业务交易质量 各节点用高实时性作为事件发现源头 网络连接质量 网络连接质量 网络连接质量 云基础设施、容器监控 网络链路拓扑自动发现网络链路质量监控 第三方平台 安管平台用户权限网管平台 CD[\]^_`[abScdefgh 基于AI的故障分析能力 故障�现时,快速分析对应指标趋势,无需登录到分散的监控工具平台 以健康度直观度量监控对象的状态 提供基于AI的根因分析、异常检测能力 灵活的数据服务能力 根据业务特点灵活建立数据逻辑及关系 基于多数据源来梳理数据逻辑,构建数据立方 以业务为中心的指标体系展示全业务健康态势 多源数据模板化数据接入 应用主动拨测监控 深入代码的应用性能管理 基于语义分析的无监督日志模式识别 #$^_i89jik9Sl;mno>pq 三驾马车 咨询 软件 实施 体系规划 专项咨询 平台设计 培训与认证   运维业务需求分析 运维平台功能规划与概要设计 合作研发     ISO20000/ITSS认证 辅导 ISO27001认证辅导 专题培训 运维体系中长期规划 实施路线图 技术路线选型 运维业务咨询 专项技术方案(如大型搬迁,系统切割、云环境运维方案) 服务流程 运维业务咨询 运维设计 业务可用性 专项咨询 业务连续性 应急 专业咨询顾问团队 指标体系 专项技术方案 智能运维 运维数据治理 rs>tSjsuvSwxyz[> 日常模式 应急指挥模式 日常运行模式大屏分为3个主题区域: •运行态势全景感知区域,包括:业务运行全景态势感知、云基础资源健康态势感知、应用系统健康态势感知、安全态势感知、用户体验感知; •技术运营区域,包括:变更日历、容量和成本分析。 •事件管理区域,这一区域包括重大事件和未响应事件列表。 应急指挥模式大屏分为3个主题区域: •业务影响分析区域,包括:事件信息、应急组织、应急速度 •应急处置区域:应急处理流程状态、变更、应急预案 •应急复盘区域:应急处置时间线大事件展示 单指标异常检测 单指标预测 |]67S~#$kÄÅ> 自主研发的Tima算法能够覆盖85%以上的场景,算法+泛型可以覆盖95%以上的场景,5%的特殊场景需要调参。 主要使用场景:智能容量规划智能业务规划做智能流量预警 日志模式识别 根因分析与推荐 基于语义分析的日志模式识别,将聚类算法用在日志的异常检测中,异常识别率高 )*+,#$4567 BCflEFH"IffiKLMENOP CH#$T&R)4 ÇÉÑÖÜ!"áàw>âwxySäãáàåçéè 接口复杂 使用场景解决方案成果 1、与机场运维人员共同梳理出接口与数据流向图 2、在一体化监控平台中,嵌入该数据流向图 3、内网部署主动拨测产品,对接口做每5min的可用性探察 4、如果接口出现故障,将变化颜色进行展示 5、接口详细指标,可在图上点击相应接口,进行下钻 从无到有 机场内场外场内接口多,关系复杂 依赖人工 接口流转信息维护和问题排查,依靠的是运维人员的经验和实践 排障滞后 接口健康度情况不能及时跟踪,故障出现难以判断对下游业务系统的影响范围,排查时间在小时级别 需要客户方提供的支持1、共同梳理数据流图 2、提供接口的IP地址信息 提供了接口健康度的全局视角 知识积累 工作交接及新需求对接时,通过数据流图介绍核心业务接口数据流转 监控范围广 监控场外接口、场内接口共35+个 快速定位故障 5min确认故障影响范围,快速通知相关业务单位 ÇÉêÖÜ!"ëp_íwxyìîSïñìî@ó 使用场景 航显系统工控机点位多机场的工控机有100+个依赖人工巡检 航显系统依靠人工巡检,一天仅可完成两次巡检,巡检无记录 排障滞后 工控机故障难以及时发现 解决方案成果 1、基于机场的实际地图,作为背景 2、在图上通过方框位置标注工控机点位(一个点位有多台设 备) 3、利用基础监控,通过ping的方式监测该工控机是否在线 4、下钻可展示:点位的在线情况、告警事件 从无到有 提供了航显工控机健康度的探察视角 提高巡检效率 原本1人半天的工作,现在是实时在线信息展示 需要客户方提供的支持 1、提供机场实际地图和工控机位置图 2、提供工控机IP地址信息 ÇÉòÖÜëôkÄöõl; 可视化成果主要建设内容和创新点 【能耗】 1、基于服务器级别的硬件运健康状态监控 2、基于服务器级别的能耗实时监测,替代昂贵的智能PDU电源 3、透过能耗监测分析,有效判定数据中心低负载服务器或僵尸服务器 【监控】 1、机柜级