2023中国AIOps现状调查报告权威解读 GOPS全球运维大会2023·上海站 尚梦宸 中国信息通信研究院云计算与大数据研究所审计与治理部工程师 AIOps国际标准编辑人,从事DevOps,AIOps、系统稳定性等发展研究与行业标准制定工作,是《研发运营一体化(DevOps)能力成熟度模型》系列标准,《云计算智能化运维(AIOps) 能力成熟度模型》系列标准,《企业IT运维发展白皮书》、《中国AIOps现状调查报告(2022)》等的编写成员之一。 目录 CONTENTS 1调查背景介绍 2调查样本分布情况 3AIOps能力建设基本情况 4AIOps场景应用情况及未来趋势 01调查背景介绍 围绕软件研发运营生命周期-需求、架构、开发、测试、运维5个维度;聚焦运维目标、组织、团队管理以及服务和工具能力5类基础保障;结合稳定性、高效能、精细化、安全运维4大工程实践,共同构建稳定、高效、精细、安全的大运维体系。 中国信息通信研究院 中国信息通信研究院 GOPS全球运维大会2023·上海站 系统技术更迭快、架构复杂,所以理论上说,“没有绝对稳定的系统,只有相对完善的保障体系”。本部分工作主要针对如何通过各类保障手段,最大限度确保系统的稳定性 框架全新升级 中国信息通信研究院 中国信息通信研究院 《混沌工程实践指南》:梳理了混沌工程这种稳定性保障手段的实践方式 《信息系统稳定性保障能力建设指南 (1.0)》:梳理了分布式系统从建设到保障各阶段中,为保障稳定性所用到的通用方法论 第2部分:系统和工具技术要求 面向智能运维系统和工具能力:从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践,结合业务模式持续完善AIOps系统和工具的场景应用。 标准编制组成员单位 以下为参与编写《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》与《云计算智能化运维(AIOps)能力成熟度模型第2部分:系统和工具技术要求》的成员所在单位 (部分),涉及银行、证券、保险、互联网、通信等众多行业领域。 中国信息通信研究院 中国信息通信研究院 第1部分:通用能力要求 面向智能运维整体能力建设:从感知、分析、决策、执行、知识更新五个维度考察各场景的智能运维能力效果,包括运维人员对系统工具的使用,运维人员对智能运维的理解程度,以及最终的效果。从不同角度考察当前智能运维建设情况,从L1-L5给出指导的建设路径。帮助企业了解当前AIOps建设现状,明确改进目标和未来发展方向。 感知:收集和监测供智能化运维场景所 需的原始输入数据的过程。 智 能化程度逐级递增 分析:基于采集/接入的数据,进行数据分析,并由此为智能运维场景功能的实现得到决策依据的过程。 决策:基于分析过程推理得到的决策依 据或选项,选择并确定智能运维场景中的配置和策略调整的过程。 执行:基于决策过程确定的策略,根据 场景不同做出进一步运维操作的过程。 知识更新:基于过往操作、决策/经验 或新业务/场景,进行知识迁移覆盖,更新知识库以提升现有能力的过程。 中国信息通信研究院 中国信息通信研究院 针对智能化运维应用场景层能力,从感知、分析、决策、执行、知识更新五个维度进行级别划分,并结合智能运维应用场景特点,形成以下级别划分。 级别/名称 分级维度 执行 感知 分析 决策 知识更新 L5 高度智能化运维 系统 系统 系统 系统 系统 L4 全面智能化运维 系统 系统 系统 系统为主 人工为主系统辅助 L3 进阶智能化运维 系统 系统 系统为主 人工为主系统辅助 人工 L2 辅助智能化运维 系统 系统为主 人工为主系统辅助 人工 人工 L1 初始智能化运维 系统为主 人工为主 人工 人工 人工 《智能化运维(AIOps)能力成熟度模型第3部分:可观测性能力要求》标准定义了智能运维领域建设可观测性能力的技术要求,包含建设可观测能力必备的数据采集传输、数据存储、数据处理、数据管理、数据观测能力以及观测场景,可用于指导基于可观测性能力的智能运维平台的规划、设计与实现。 中国信息通信研究院 本标准为相关企业选择可观测性系统工具提供了选型依据,也可为企业自建基于可观测性的智能运维平台作为参考。 追踪 (Tracing) 调用链指标 + 中国信息通信研究院 可观测 调用链+日志指标+日志 度量 (Metrics) 日志 (Logging) 本标准已在中国通信标准化协会TC1WG7第1次工作组会议上成功立项,于2023年4月完成编制,并于2023年9月正式开启第一批评估报名。 GOPS全球运维大会2023·上海站 AIOps通用能力要求评估结果AIOps系统和工具技术要求评估结果 中国信息通信研究院 中国信息通信研究院 2023年4月,中国工商银行股份有限公司的“中国工商银行云原生智能运维建设项目”首批顺利通过AIOps通用能力要求评估,代表行业领先水平。 截至2023年10月,共有18家企业33个项目通过了AIOps系统和工具评估,代表行业领先水平。 中国工商银行股份有限公司的中国工商银行云原生智能运维建设项目通过了《云计算智能化运维(AIOps)能力成熟度模型第1部分:通用能力要求》的【异常检测】场景、【日志定位】场景的3级评估 日志定位场景 异常检测场景 IT资源成本治理FinOps标准体系 《IT基础设施资源运营能力成熟度模型》 系统与工具 生态管理 度量评价 财务管理 运营管理 辅助决算 成本归集 成本优化 成本感知 预算额度 《面向云计算的财务运营管理平台通用能力要求》 为指导企业开展云财务运营管理、推动国内云计算产业发展,让更多企业在敏捷、高效上云的同时,实现更加经济有效的用云,在工信部财务司以及云计算开源产业联盟的指导下,中国信息通信研究院联合国内云需求方、云厂商以及第三方云服务商一起,共同成立FinOps产业推进方阵,旨在云财务运营领域开展标准制定和解决方案输出工作。 中国信息通信研究院 中国信息通信研究院 02调查样本分布情况 调查样本分布情况 调查方法 本次调查报告采用在线问卷调查方式,共收集到有效问卷2320份。 中国信息通信研究院 参与调查企业行业分布 参与调查企业人员规模 参与调查人员职业分布 GOPS全球运维大会2023·上海站 中国信息通信研究院 梳理中国AIOps产业发展脉络,帮助企业了解智能运维发展现状,促进智能运维领域技术与应用的有效落地 03AIOps能力建设基本情况 2023年超半数企业在智能运维方面投入资金对比去年有所增加,业务可观测性和SRE可靠性实践是企业当前重点关注方向。 企业智能运维方面资金投入情况企业在技术投资时优先考虑的IT运营指标 中国信息通信研究院 中国信息通信研究院 •超半数企业2023年在智能运维方面投入资金情况对比去年有所增加,有11.29%的受访者所在企业表示相较去年在智能运维方面投入资金有所减少,另外33.02%的受访者所在企业资金投入情况与去年保持不变。 •业务可观测性和SRE可靠性实践是当前重点关注方向。在业务可观测性和SRE方向关注度较往年提升超过20%,占比分别为46.47%和48.23%,是企业当前投资的重点方向。 2023年企业对于AIOps的应用情况和建设效果的评价更为客观、准确,且对当前和未来的建设方向逐渐清晰。质量和效率领域仍然是目前企业关注度最高的应用方向。 企业AIOps能力建设阶段 •AIOps处于发展阶段,企业对于AIOps的应用情况和建设效果的评价更为客观、准确,且对当前和未来的建设方向逐渐清晰。半数以上的受访者自评企业目前智能运维处于辅助智能化 (37.33%)和进阶智能化阶段(28.02%)。 企业当前智能运维重点关注领域 中国信息通信研究院 中国信息通信研究院 •智能运维在质量、成本、效率、安全四大运维领域均已开展部署和应用,其中质量和效率领域仍然是目前企业关注度最高的应用方向。59.31%的企业当前智能运维着重关注质量领域能力建设,其次是效率领域(47.28%)、成本领域(29.87%)和安全领域(35.99%) 通过采购第三方解决方案并组建团队进行联合开发的方式,快速构建智能运维能力,成为多数企业目前建设AIOps能力的主要方式。生成式预训练模型(GPT)能力目前处于探索发展阶段,但已有少数企业开始考虑引入或搭建相关能力,进一步提升运维成效。 企业搭建智能运维平台/工具的方式 •相较于2022年数据,受访者所在企业未建设智能运维平台/工具的比例有所下降,以采购第三方解决方案的方式逐渐成为主流,占比较去年增长超过20%。 企业生成式预训练模型使用情况 中国信息通信研究院 中国信息通信研究院 •根据本次调查显示,多数企业对生成式预训练模型暂时处于研究和了解中(47.38%),少量企业已开始实践(2.36%已自建GPT能力,7.55%已经引入厂商的ChatGPT接口能力,开始对内提供服务) 04AIOps场景应用情况及未来趋势 可观测性数据的融合与关联分析,对于提高数据价值、改善决策过程和降低数据分析成本都非常必要。可观测能力适用于根因分析、链路追踪、事件分析等多类数据分析定位场景。 中国信息通信研究院 可观测性数据融合和关联的必要性可观测能力适用场景 中国信息通信研究院 •通过调查发现,超六成(61.38%)受访者认为可观测性数据的融合和关联是非常有必要的,将数据进行融合和关联分析可以帮助运维人员更好地理解数据之间的联系和趋势,从而更好地做出决策。 •可观测能力建设可以帮助企业监控其系统和应用程序的性能、及时发现和解决问题以及提高系统的可靠性和稳定性。企业最希望通过可观测能力解决的问题是帮助快速诊断和解决问题(75.30%)以及支持数据分析和挖掘(74.61%)。 企业在建设可观测能力的过程中,主要关注对数据的处理能力、关联分析、动态发现和结果的自动处置能力。可观测能力的建设在数据采集、存储、分析关联以及构建数据可视化、数据观测能力的基础上,可以结合智能运维能力应用于多种不同的可观测场景。 可观测能力建设所需条件可观测场景实践 中国信息通信研究院 •建设可观测能力的过程中,优先需要统一的数据采集、存储、分析和展示平台(27.42%)以及对多维度数据的关联分析能力(27.42%),其次是对应用与资源之间依赖关系的动态发现和管理能力 中国信息通信研究院 (21.48%)。 •可观测场景主要分为基础设施、容器性能、应用性能、用户体验以及业务性能。目前关注实践较多的场景有故障排查(32.59%),基础资源监控 (31.48%),应用性能监控(29.85%) 2023年多数企业开始关注智能运维效果以及如何从数据入手进一步提升分析效果。但当前智能运维能力建设仍面临众多挑战。未来趋势:探索业务应用场景以及建设可观测性能力,并进一步提升运维效率同时不断优化现有场景能力。 中国信息通信研究院 智能运维技术面临的挑战未来企业智能运维建设方向 中国信息通信研究院 •企业建设智能运维技术及工具平台正从“可用、有用”向“易用、好用”转变。通过本次调查我们发现,多数企业开始关注智能运维效果以及如何从数据入手进一步提升分析效果 •企业通过结合生成式AI、LLM等新技术探索业务应用场景、建设可观测性能力、进一步提升运维效率的同时不断优化现有场景能力将是未来发展趋势。 生成式AI、LLM等新技术在运维场景大有可为,也同样是各企业今年关注的热点方向,新技术引入时仍需注意安全风险、学习成本、可解释性、应用效果、资源投入等问题。 智能运维建设过程中遇到的困难生成式AI技术在运维场景的应用趋势运维引入生成式AI技术面临的挑战 中国信息通信