大模型助力 企业IT运维智能化升级 白璐 中国信息通信研究院工程师 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 白璐 中国信息通信研究院工程师 专注于XOps研发运营领域研究,包括AIOps智能运维、FinOps、系统连续性与稳定性工程SRE、企业架构治理等多领域,参与编制《中国AIOps现状调查报告(2023)》《中国FinOps现状调查报告(2023)》,为《智能运维可观测性能力要求》《IT基础资源运营成熟度模型》《企业架构数字化治理能力成熟度》等标准主要参编人员,具备多年IT资源管理、企业数字化转型等领域经验。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 01 新时代大运维现代化保障体系 目录 02 大模型时代背景概述 03大模型在研发运营领域的应用现状 04大模型驱动的研发运营场景展望 01新时代大运维现代化保障体系 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 外部环境与需求变化促进运维(Ops)理念不断演进 运维的需求与环境发生巨大变化:随着数字技术的更新,信息化系统的重要性突显,系统稳定性面临着新的挑战。 信 互联网等数字原生企业为提升数字能力、满足用户需求,不断扩大系统规模,引入敏捷开发流程,导致信息系统复杂性直线上升,稳定性风险点增多。同时运维理念随技术需求也在不断演进。 可靠性、可维护性和可扩展性 研究院 将软件工程的原则和运维的实践结合,通过智能化、自动化、监控、故障注入等手段提高系统的可靠性、可维护性和可扩展性。 快速部署、持续集成、交付和部署 研发和运维是紧密协作的一体化团队。使用自动化工具和流程实现快速部署、持续集成、持续交付和持续部署 (CI/CD)。 中国信息通 自动化服务器配置与部署流程 采用自动化工具和脚本减少手工操作。通过配置管理工具自动化服务器配置和部署流程,减少手工错误和提高一致性。 文档化人工维护与更新 应用程序的开发、测试、部署之后,由运维负责部署、监控和维护。在这个阶段,操作流程和文档以人工方式维护和更新。 AIOps、SRE大运维阶段研发和运维协同DevOps阶段 自动化运维阶段手工运维阶段 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 构建新时代稳定、高效、精细、安全的运维现代化保障体系 围绕质量、成本、效率、安全5个维度;结合稳定性、高效能、精细化、安全运维4大工程实践,共同构建稳定、高效、精细、安全的运维现代化保障体系。 运维现代化保障体系 研究院究院 信信息息通通信信研 质量成本效率安全 SRE系统可靠性与连续性工程 设计与开发质量保障部署发布故障预防故障观测故障处置优化改进SLO运营 技术运营 监控管理 事件与变更管理 容量与成本管理 可用性管理 连续性管理 用户体验管理 IT资源精细化运营 预算管理 场景能力 AIOps智能运维 监控与告警 故障处置 知识库管理 智能发现 智能分析 智能客服 赋提 能效 可观测性 中国中国 行为分析 基础设施观测 应用性能观测 容器性能观测 用户体验观测 业务性能观测 数据观测 交付管理容量管理成本管理效能管理 安全运营威胁感知安全监测响应处置威胁狩猎 脆弱性感知用户和实体 安全知识图谱 风险可视化 平台工具 智能运维AIOps系统与工具 FinOps平台工具能力 异常检测告警收敛根因定位故障预测预算额度成本感知成本优化成本归集 知识库构建智能变更智能问答辅助决算 AI能力 研发运营大模型算法服务化模型工程化 数据能力 运维数据治理 数据采集数据传输数据处理数据存储数据管理 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 研发运营系统可靠性与连续性(SRE) 系统技术更迭快、架构复杂,所以理论上说,“没有绝对稳定的系统,只有相对完善的保障体系”。本部分工作主要针对如何通过各类保障手段,最大限度确保系统的稳定性.集产学研多方力量,聚焦信息系统稳定性(STABILITY)&韧性(RESILIENCE)研究。完成技术标准4个,研究报告2个,19家机构参与过基于标准的评测工作。 中国信息通信研究院 框架全新升级 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 中国信息通信研究院 国际领先:智能运维(AIOps)国际标准发布 国际方面: 中国信息通信研究院牵头提出首个智能运维(AIOps)国际标准,并正式发布! 国际电信联盟(ITU)于2023年12月正式发布智能运维(AIOps)标准:ITU-TY.3550Cloudcomputing-RequirementsforAIbasedcloudservicedevelopmentandoperationmanagement。标准基于ITU-TY.3525研发运营管理框架,引入AI能力用于增强研发、运营生命周期中的四个主要阶段,在人工智能技术的加持下进一步提高软件开发和运营管理效率。其中主要针对智能运维场景提出了相关能力要求和用例,用于指导企业进一步开展智能运维应用有效落地。此外,该建议还规定了部分智能化软件研发场景的功能要求。 旨在通过进一步明确智能运维的功能要求,推进各方对智能运维能力体系架构达成共识,加强国际交流合作,以促进智能运维领域技术、应用的有效落地,持续推动国内外AIOps相关产业的健康有序发展。 息通信研 中 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 国信 第3部分:可观测性能力要求 面向可观测整体能力建设:对智能运维能力数据层的能力提升,包含建设可观测能力必备的数据采集传输、数据存储、数据处理、数据管理、数据观测能力以及观测场景,可用于指导基于可观测性能力的智能运维平台的规划、设计与实现。 第2部分:系统和工具技术要求 面向智能运维系统和工具能力:从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践,结合业务模式持续完善AIOps系统和工具的场景应用。 第1部分:通用能力要求 面向智能运维整体能力建设:从感知、分析、决策、执行、知识更新五个维度考察各场景的智能运维能力效果,包括运维人员对系统工具的使用,运维人员对智能运维的理解程度,以及最终的效果。从不同角度考察当前智能运维建设情况,从L1-L5给出指导的建设路径。帮助企业了解当前AIOps建设现状,明确改进目标和未来发展方向。 究院 智能运维能力成熟度系列标准 随着全行业数字化转型的快速发展,企业IT资源投入不断增加,IT资源投入边际效能逐渐下降,如何平衡IT资源投入与成效之间的问题日渐凸显。 《中国FinOps现状调查报告(2023)》显示,超半数企业IT资源存在利用不充分、浪费现象,超过八成企业表达了对IT资源成本精细化管理的强烈需求,企业亟需开展IT资源精细化管理,向资源精细化、可持续化运营转型。 在此背景下,中国信通院牵头发起《IT基础设施资源运营能力成熟度模型》标准编制工作,旨在帮助各企业审视内部IT资源管理现状,指导企业由IT资源粗放式管理向精细化运营转型。 《IT基础设施资源运营能力成熟度模型》标准 多个政府部门出台政策强调高质量发展在我国现阶段发展阶段中的重要战略指导地位。国资委出台政策提出“强化成本管控,实现精益科学”,健全全生命周期的成本费用管控机制。 院 中国信息通信研究 《IT基础设施资源运营能力成熟度模型》标准从预算管理、交付管理、容量管理、成本管理、效能管理、持续运营等几大维度出发,整合一套指导企业IT资源管理的方法论,促进IT资产效能最大化,助力企业降本增效、高质量发展。 国务院国资委印发 国务院关于印发的 IT基础设施资源运营成熟度模型 《关于中央企业加快建设世界一流财务管理体系的指导意见》 “强化成本管控,实现精益科学。牢固树立过“紧日子”思想,坚持一切成本费用皆可控,坚持无预算不开支, 健全全员、全要素、全价值 党的二十大报告 “高质量发展是全面建设社会主义现代化国家的首要任务” “十四五”数字经济发展规划的通知 规范健康可持续是数字经济高质量发展的迫切要求。我国数字经济规模快速扩张,但发展不平衡、不充分、不规范的问题较为突出,迫切需要转变传统发展方式,加 预算管理 预算计划 《IT基础设施资源运营能力成熟度模型》标准框架 能预算执行 层 力预算分析 预算变更 数 交付管理需求管理需求审批 采购管理 需求交付 容量管理 容量规划监控告警容量分析资源调度资源优化 成本管理 成本洞察成本分摊成本优化成本核算 效能管理 利用效率 指标管理 流程管理 持续运营 可视化报表权限配置管理规范组织建设 中间件 链、全生命周期成本费用管控机制”。 快补齐短板弱项,提高我国数字经济治理水平,走出一条高质量发展道路。 据数据采集 层 物理机 资源层 数据传输 虚拟机网络 数据处理 数据存储 云资源 数据治理 数据库 ... 2023年12月 标准正式立项 2023年1月 标准启动会 2023年2-3月 标准研讨会 2023年3月 形成标准初稿 2023年4月 试点评估 本标准已立项,将于2024年1月18日召开标准启动会暨第一次研讨会,参编单位持续征集中!现参编单位有:中国移动集团、中国移动设计院、中国联通软件研究院、联通数科、中国邮政储蓄银行、招商银行、平安银行、华泰证券、银河证券、招商基金、中国航信、百度、联想、京东、小红书等30余家 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 智能化运维(AIOps)能力成熟度模型第5部分:运维数据治理 运维数据治理是运维数智化转型的关键组成部分,通过数据治理,可以确保运维数据的准确性、完整性和一致性,并有助于数据的共享和开放。在当前智能运维工作中存在数据汇聚能力不足、数据管控能力薄弱、数据治理体系不完善、数据价值评估难等痛点问题。 •数据来源多样、格式不一,数据质量控制。 中国信息通信研究院 数据标准不统一 •企业内部或企业间数据标准不统一,导致 运维数据类型与治理痛点 运维数据治理维度 运维数据质量核验 数据整合困难,影响数据的有效利用。 基础设施监控数据:服务器、 1存储设备、网络设备的运行3 状态和性能指标。 系统和应用日志数据:操作系统日志、数据库日志、中间件日志以及应用系统日志。 运维数据过程管理 •不同系统或部门之间的数据往往孤立,缺乏有效的整合和共享机制。 缺乏专门的数据治理组织和 专业人才 •企业内部或企业间数据标准不统一,导致数 据整合困难,影响数据的有效利用。 安全和访问数据:系统安全 2事件、入侵检测报警、用户4 登录和访问记录等。 配置和变更管理数据:系统配置、网络配置、安全配置以及应用配置的变更记录。 运维数据安全管控 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 2024年5月:启动编制 2024年6-7月:形成第一版征求意见稿 2024年三季度:标准征求意见稿持续优化、组织上会 时间计划 02大模型时代背景概述 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 大模型颠覆人工智能产业 院通信研究 中国信息 大语言模型(LLM)是使用深度学习算法处理和理解自然语言的基础机器学习模型。他们可以理解复杂的文本数据,识别实体和它们之间的关系,并生成连贯且语法准确的新文本。 大模型颠覆了人工智能技术、合作、研发、运营、服务模式,加速了生态变化和影响 政策助力大模型技术快速发展 院 随着人工智能技术的飞速发展,大模型在自然语言处理、计算机视觉、语音识别等多个领域取得了显著