运维新纪元: 智能运维与大模型的融合革新 白璐 GOPS全球运维大会暨研运数智化技术峰会2024·上海站 个人简介 白璐 中国信息通信研究院工程师 专注于XOps研发运营领域研究,包括AIOps智能运维、FinOps、系统连续性与稳定性工程SRE、企业架构治理等多领域,参与编制《中国AIOps现状调查报告(2023)》《中国FinOps现状调查报告(2023)》,为《智能运维可观测性能力要求》《IT基础资源运营成熟度模型》《企业架构数字化治理能力成熟度》等标准主要参编人员,具备多年IT资源管理、企业数字化转型等领域经验。 现代化运维保障体系 AIOps可观测性 目录运维大模型 大运维体系标准介绍 01 现代化运维保障体系 构建新时代稳定、高效、精细、安全的运维现代化保障体系 围绕质量、成本、效率、安全5个维度;结合稳定性、高效能、精细化、安全运维4大工程实践,共同构建稳定、高效、精细、安全的运维现代化保障体系。 运维现代化保障体系 质量成本效率安全 SRE系统可靠性与连续性工程 设计与开发 质量保障 部署发布 故障预防 故障观测 故障处置 优化改进 SLO运营 场景 能力 监控管理 技术运营 事件与变更管理 容量与成本管理 赋 能监控与告警 AIOps智能运维 故障处置 知识库管理 提 效基础设施观测 可观测性 应用性能观测 容器性能观测 可用性管理 连续性管理 用户体验管理 智能发现 智能分析 智能客服 用户体验观测 业务性能观测 数据观测 FinOps&IT资源精细化运营 预算管理 交付管理 容量管理 成本管理 效能管理 安全运营 威胁感知 安全监测 响应处置 威胁狩猎 脆弱性感知 用户和实体 行为分析 安全知识 图谱 风险可视化 平台工具 智能运维AIOps系统与工具 AI能力 FinOps平台工具能力 异常检测告警收敛根因定位故障预测预算额度成本感知成本优化成本归集 知识库构建智能变更智能问答辅助决算 研发运营大模型 数字员工 模型工程化 数据管理 数据存储 数据处理 数据传输 数据采集 数据能力 运维数据治理 外部环境与需求变化促进运维(Ops)向智能化发展 智能运维的概念最早由Gartner在2016年提出,由最初的AlgorithmicITOperations,逐渐演变为ArtificialIntelligenceforITOperation 运维的需求与环境发生巨大变化:随着系统数量与业务规模持续性增长,运维数据指标数据量、种类不断增长。在大数据、云计算、人工智能等新技术的促进下,AIOps成为未来运维发展的趋势,是企业级DevOps在运维(技术运营)侧的高阶实现。 结合大数据和机器学习来自动化IT运营流程,包括事件关联、异常检测和因果关系确定。 信息化发展初期依赖个人知识、技术及经验 手工运维,人工查看、监测日志并分析做出决策。 业务量增长超过人力增长 运维流程、工具标准化等开始建立与管理。 异构系统架构、运维方式差异化 在采集数据的基础上,使用自动化的脚本进行决策分析。事件与流程关联。 业务架构复杂、需求快速且频繁迭代 工具全链路打通,跨团队线上协作。 业务量庞大、海量数据积累、AI等新技术 应用 自动判断、执行,对采集的海量监测日志,使用人工智能技术进行分析决策。 总结: 1.智能运维是以大数据平台和机器学习(算法平台)为核心。 2.智能运维需要与监控、服务台、自动化系统联动,智能运维需要从各个监控系统中抽取数据、面向用户提供服务、并有执行 智能运维产生决策模型的自动化系统。 手工运维流程化运维自动化运维DevOpsAIOps 数字化建设动能强劲,运维保障促高质效发展:产业发展离不开政策支撑,随着国家信息化建设的逐渐深入,信息系统已成为企业核心竞争力的重要组成部分,作为信息系统稳定、安全、高效运行的保障,IT运维也变得越来越重要。 国务院关于印发 《“十四五”数字经 济发展规划的通知》 国家“十四五”规划 《纲要》 《关于推动平台经济规范健康持续发展的 若干意见》 数据的爆发增长为智能化发展带来了新的机遇。加快推动智能化应用建设,促进各环节智 能化升级,提升基础设施网络化、智能化、服务化、协同化水平,加快优化智能化产品和 服务运营。 未来将培育壮大人工智能、大数据、区块链、云计算、网络 安全等新兴数字产业。 鼓励平台企业加强与行业龙头企业合作,提升企业一体化数字化生产运营能力,推进供应 链数字化、智能化升级,带动 传统行业整体数字化转型。 服务模式多样,智能运维产业多点开花:互联网公司、金融机构、IT技术公司走在了智能运维应用的前列。 互联网 阿里巴巴研发了智能故障管理平台,以业务为导向,实现了基于机器学习的业务异常检测,准确及时发现故障。 京东科技实现了基于网络拓扑的根源告警分析,将告警分类筛选,快速找到告警根源,从而缩短故障排查及恢复时间。 百度实现了基于智能流量调度的单机房故障自愈 能力,,通过策略框架支持智能化异常检测、策略编排、流量调度,实现了单机房故障自愈能力 。 金融 中国银行初步形成了“运维大数据仓库”、“运维数据分析平台”的计算框架,在异常检测 、故障快速定位、系统容量预估和动态调配等多个场景中应用。 招商银行在性能容量评估、故障定位与诊断方面采用智能运维的方案,以应对业务高峰的需求。 交通银行通过数据中心运维大数据平台的建设 ,实现了事前智能预警、事后快速定位故障。 技术厂商 华为推出了基于大数据平台的数据中心网络智能分析平台。实现风险主动预测。 日志易关注非结构化数据分析能力,对事件日志进行上下文历史挖掘分析、周期性规律分析、成对成组出现分析、日志相关与因果分析。 浪潮云将收集到的机器数据转化为有运维价值的 见解,让用户能实时了解IT系统与技术构架现状 ,以便做出决策。 政策助力我国智能运维产业蓬勃兴起 智能运维能力成熟度系列标准 第1部分:通用能力要求 面向智能运维整体能力建设:从感知、分析、决策、执行、知识更新五个维度考察各场景的智能运维能力效果,包括运维人员对系统工具的使用,运维人员对智能运维的理解程度,以及最终的效果。从不同角度考察当前智能运维建设情况,从L1-L5给出指导的建设路径。帮助企业了解当前AIOps建设现状,明确改进目标和未来发展方向。 第2部分:系统和工具技术要求 面向智能运维系统和工具能力:从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践 ,结合业务模式持续完善AIOps系统和工具的场景应用。 标准编制组成员单位 以下为参与编写《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》与《云计算智能化运维(AIOps)能力成熟度模型第2部分:系统和工具技术要求》的成员所在单位 (部分),涉及银行、证券、保险、 互联网、通信等众多行业领域。 AIOps能力成熟度级别划分 针对智能化运维应用场景层能力,从感知、分析、决策、执行、知识更新五个维度进行级别划分,并结合智能运维应用场景特点,形成以下级别划分。 级别/名称 分级维度 执行 感知 分析 决策 知识更新 L5 高度智能化运维 系统 系统 系统 系统 系统 L4 全面智能化运维 系统 系统 系统 系统为主 人工为主系统辅助 L3 进阶智能化运维 系统 系统 系统为主 人工为主系统辅助 人工 L2 辅助智能化运维 系统 系统为主 人工为主系统辅助 人工 人工 L1 初始智能化运维 系统为主 人工为主 人工 人工 人工 智能化程度逐级递增 感知:收集和监测供智能化运维场景所需的原始输入数据的过程。 分析:基于采集/接入的数据,进行数据分析,并由此为智能运维场景功能的实现得到决策依据的过程。 决策:基于分析过程推理得到的决策依据或选项,选择并确定智能运维场景中的配置和策略调整的过程。 执行:基于决策过程确定的策略,根据场景不同做出进一步运维操作的过程。 知识更新:基于过往操作、决策/经验或新业务/场景,进行知识迁移覆盖,更新知识库以提升现有能力的过程。 我国AIOps技术发展成熟度现状 与2023年相比,企业AIOps成熟度全面提升 随着AIOps建设不断深入,企业AIOps智能运维能力建设成熟度逐渐提高,更多企业进入L3进阶智能化运维阶段,占比58.42%,较2023年增加超过20%。此外,18.72%的受访者自评处于L2辅助智能化运维阶段,9.72%的受访者自评已达到全面智能化运维阶段。 AIOps成熟度模型 根据中国信通院牵头制定的行业标准《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》中的AIOps能力建设分级要求,可以将智能化运维整体能力从感知、分析、决策、执行、知识更新五个维度进行级别划分。系统的参与程度随智能化程度逐级递增,并结合智能运维应用场景特点,形成AIOps能力成熟度模型,分为L1-L5五个等级。 AIOps场景应用情况 质量和效率领域仍然是目前企业关注度最高的应用方向,成本关注度显著提升 智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量和效率领域仍然是目前企业关注度最高的应用方向,包括异常检测、告警收敛、根因分析、故障恢复等场景。此外,相比较2023年,2024年成本方向关注度显著提升,现位列第三,具体包括包括资源优化、成本评估、容量预测等场景。 超四成企业已建立了智能运维系统/工具 随着技术的发展,智能运维正从单一场景向体系化发展,产品趋向于构建统一平台。超四成企业已建立了智能运维系统/工具,其中28.13%受访者表示已开始场景实践但尚未形成平台能力,15.2%的受访者表示已建立了智能运维平台能力,仅有1.96%的企业表示已建立了智能运维平台及相关的评价体系。 国际领先:智能运维(AIOps)国际标准发布 国际方面: 中国信息通信研究院牵头提出首个智能运维(AIOps)国际标准,并正式发布! 国际电信联盟(ITU)于2023年12月正式发布智能运维(AIOps )标准:ITU-TY.3550Cloudcomputing-RequirementsforAIbasedcloudservicedevelopmentandoperationmanagement。标准基于ITU-TY.3525研发运营管理框架,引入AI能力用于增强研发、运营生命周期中的四个主要阶段,在人工智能技术的加持下进一步提高软件开发和运营管理效率。其中主要针对智能运维场景提出了相关能力要求和用例,用于指导企业进一步开展智能运维应用有效落地。此外,该建议还规定了部分智能化软件研发场景的功能要求。 旨在通过进一步明确智能运维的功能要求,推进各方对智能运维能力体系架构达成共识,加强国际交流合作,以促进智能运维领域技术、应用的有效落地,持续推动国内外AIOps相关产业的健康有序发展。 ITUAIOps国际标准评估 国际电信联盟(ITU)于2023年12月正式发布智能运维(AIOps)标准:ITU-TY.3550Cloudcomputing-RequirementsforAIbasedcloudservicedevelopmentandoperationmanagement。由中国信息通信研究院牵头制定,旨在推进各方对智能运维能力体系架构达成共识,加强国际交流合作,促进智能运维领域技术、应用的有效落地。 增加AIOps国际标准评估证书。证书均由中国信息通信研究院/中国泰尔实验室颁发。 证书全面升级 AIOps国际标准介绍AIOps国际评估三大亮点 力用于增强研发、运营生命周期中的四个主要阶段,在人工智能技术 ITU-TY.3550标准基于ITU-TY.3525研发运营管理框