您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:大模型技术助力企业IT运维智能化升级 - 发现报告

大模型技术助力企业IT运维智能化升级

信息技术2024-09-18白璐中国信通院「***
AI智能总结
查看更多
大模型技术助力企业IT运维智能化升级

白璐 中国信息通信研究院工程师 白璐 公司职位中国信息通信研究院工程师 专注于XOps研发运营领域研究,包括AIOps智能运维、FinOps、系统连续性与稳定性工程SRE、企业架构治理等多领域,参与编制《中国AIOps现状调查报告(2023)》《中国FinOps现状调查报告(2023)》,为《智能运维可观测性能力要求》《IT基础资源运营成熟度模型》《企业架构数字化治理能力成熟度》等标准主要参编人员,具备多年IT资源管理、企业数字化转型等领域经验。 01 新 时 代 大 运 维 现 代 化 保 障 体 系 目录 02 大 模 型 时 代 背 景 概 述 03大 模 型 在 研 发 运 营 领 域 的 应 用 现 状 04大 模 型 驱 动 的 研 发 运 营 场 景 展 望 新时代大运维现代化保障体系 外部环境与需求变化促进运维(Ops)理念不断演进 p运维的需求与环境发生巨大变化:随着数字技术的更新,信息化系统的重要性突显,系统稳定性面临着新的挑战。互联网等数字原生企业为提升数字能力、满足用户需求,不断扩大系统规模,引入敏捷开发流程,导致信息系统复杂性直线上升,稳定性风险点增多。同时运维理念随技术需求也在不断演进。 将软件工程的原则和运维的实践结合,通过智能化、自动化、监控、故障注入等手段提高系统的可靠性、可维护性和可扩展性。可靠性、可维护性和可扩展性 快速部署、持续集成、交付和部署 研发和运维是紧密协作的一体化团队。使用自动化工具和流 程 实 现 快 速 部 署 、 持 续 集 成 、 持 续 交 付 和 持 续 部 署(CI/CD)。 自动化服务器配置与部署流程 采用自动化工具和脚本减少手工操作。通过配置管理工具自动化服务器配置和部署流程,减少手工错误和提高一致性。 中国信息通信研究院文 档 化 人 工 维 护 与 更 新 应用程序的开发、测试、部署之后,由运维负责部署、监控和维护。在这个阶段,操作流程和文档以人工方式维护和更新。 构建新时代稳定、高效、精细、安全的运维现代化保障体系 p围绕质量、成本、效率、安全5个维度;结合稳定性、高效能、精细化、安全运维4大工程实践,共同构建稳定、高效、精细、安全的运维现代化保障体系。 研发运营系统可靠性与连续性(SRE) 系统技术更迭快、架构复杂,所以理论上说,“没有绝对稳定的系统,只有相对完善的保障体系”。本部分工作主要针对如何通过各类保障手段,最大限度确保系统的稳定性.集产学研多方力量,聚焦信息系统稳定性(STABILITY)&韧性(RESILIENCE)研究。完成技术标准4个,研究报告2个,19家机构参与过基于标准的评测工作。 国际领先:智能运维(AIOps)国际标准发布 国际方面:中国信息通信研究院牵头提出首个智能运维(AIOps)国际标准,并正式发布! 中国信息通信研究院Ø国际电信联盟(ITU)于2023年12月正式发布智能运维(AIOps)标准:ITU-T Y.3550 Cloud computing - Requirements for AIbased cloud service development and operationmanagement。标准基于ITU-T Y.3525研发运营管理框架,引入AI能力用于增强研发、运营生命周期中的四个主要阶段,在人工智能技术的加持下进一步提高软件开发和运营管理效率。其中主要针对智能运维场景提出了相关能力要求和用例,用于指导企业进一步开展智能运维应用有效落地。此外,该建议还规定了部分智能化软件研发场景的功能要求。 Ø旨在通过进一步明确智能运维的功能要求,推进各方对智能运维能力体系架构达成共识,加强国际交流合作,以促进智能运维领域技术、应用的有效落地,持续推动国内外AIOps相关产业的健康有序发展。 智能运维能力成熟度系列标准 第2部分:系统和工具技术要求 第1部分:通用能力要求 第3部分:可观测性能力要求 Ø面向智能运维整体能力建设:从感知、分析、决策、执行、知识更新五个维度考察各场景的智能运维能力效果,包括运维人员对系统工具的使用,运维人员对智能运维的理解程度,以及最终的效果。从不同角度考察当前智能运维建设情况,从L1-L5给出指导的建设路径。帮助企业了解当前AIOps建设现状,明确改进目标和未来发展方向。 Ø面向可观测整体能力建设:对智能运维能力数据层的能力提升,包含建设可观测能力必备的数据采集传输、数据存储、数据处理、数据管理、数据观测能力以及观测场景,可用于指导基于可观测性能力的智能运维平台的规划、设计与实现。 Ø面向智能运维系统和工具能力:从基础功能、高级功能等功能性要求角度考察AIOps系统和工具应具备的相关能力,用以支持企业AIOps能力建设。帮助企业了解并明确AIOps系统和工具需要具备的功能要求,对标行业领先实践,结合业务模式持续完善AIOps系统和工具的场景应用。 《IT基础设施资源运营能力成熟度模型》标准 Ø随着全行业数字化转型的快速发展,企业IT资源投入不断增加,IT资源投入边际效能逐渐下降,如何平衡IT资源投入与成效之间的问题日渐凸显。《中国FinOps现状调查报告(2023)》显示,超半数企业IT资源存在利用不充分、浪费现象,超过八成企业表达了对IT资源成本精细化管理的强烈需求,企业亟需开展IT资源精细化管理,向资源精细化、可持续化运营转型。Ø在此背景下,中国信通院牵头发起《IT基础设施资源运营能力成熟度模型》标准编制工作,旨在帮助各企业审视内部IT资源管理现状,指导企业 由IT资源粗放式管理向精细化运营转型。 Ø多个政府部门出台政策强调高质量发展在我国现阶段发展阶段中的重要战略指导地位。国资委出台政策提出“强化成本管控,实现精益科学”,健全全生命周期的成本费用管控机制。 Ø《IT基础设施资源运营能力成熟度模型》标准从预算管理、交付管理、容量管理、成本管理、效能管理、持续运营等几大维度出发,整合一套指导企业IT资源管理的方法论,促进IT资产效能最大化,助力企业降本增效、高质量发展。 国 务 院 关 于 印 发 的“十四五”数字经济发展规划的通知 国务院国资委印发《关于中央企业加快建设世界一流财务管理体系的指导意见》 党的二十大报告 中国信息通信研究院规范健康可持续是数字经济高质量发展的迫切要求。我国数字经济规模快速扩张,但发展不平衡、不充分、不规范的问题较为突出,迫切需要转变传统发展方式,加快补齐短板弱项,提高我国数字经济治理水平,走出一条高质量发展道路。 “强化成本管控,实现精益科学。牢固树立过“紧日子”思想,坚持一切成本费用皆可控,坚持无预算不开支,健全全员、全要素、全价值链、全生命周期成本费用管控机制”。 “高质量发展是全面建设社会主义现代化国家的首要任务” ü本标准已立项,将于2024年1月18日召开标准启动会暨第一次研讨会,参编单位持续征集中!现参编单位有:中国移动集团、中国移动设计院、中国联通软件研究院、联通数科、中国邮政储蓄银行、招商银行、平安银行、华泰证券、银河证券、招商基金、中国航信、百度、联想、京东、小红书等30余家 智能化运维(AIOps)能力成熟度模型第5部分:运维数据治理 p运维数据治理是运维数智化转型的关键组成部分,通过数据治理,可以确保运维数据的准确性、完整性和一致性,并有助于数据的共享和开放。在当前智能运维工作中存在数据汇聚能力不足、数据管控能力薄弱、数据治理体系不完善、数据价值评估难等痛点问题。 •数据来源多样、格式不一,数据质量控制。 数据标准不统一 •企业内部或企业间数据标准不统一,导致数据整合困难,影响数据的有效利用。 缺乏专门的数据治理组织和专业人才 2024年三季度:标准征求意见稿持续优化、组织上会 大模型时代背景概述 大模型颠覆人工智能产业 Ø大语言模型(LLM)是使用深度学习算法处理和理解自然语言的基础机器学习模型。他们可以理解复杂的文本数据,识别实体和它们之间的关系,并生成连贯且语法准确的新文本。 Ø大模型颠覆了人工智能技术、合作、研发、运营、服务模式,加速了生态变化和影响 政策助力大模型技术快速发展 随着人工智能技术的飞速发展,大模型在自然语言处理、计算机视觉、语音识别等多个领域取得了显著的突破。特别是在自然语言处理领域,预训练大模型如BERT、GPT系列等已经成为研究和产业应用的标配。 2023年政策助推大模型在各行业应用快速落地 近年来国内外大模型技术发展迅猛 Ø2023年7月,国家互联网信息办公室等七部门联合发布了《生成式人工智能服务管理暂行办法》: 鼓励生成式人工智能技术在各行业、各领域的创新应用,探索优化应用场景,构建应用生态体系。 Ø2023年12月,国家数据局发布《“数据要素x”三年行动计划(征求意见稿)》: 中国信息通信研究院提出以科学数据支持大模型开发,支持开展通用人工智能大模型和垂直领域人工智能大模型训练。 Ø北京、上海、深圳、安徽、四川等省市出台大模型产业发展措施: 《上海市推动人工智能大模型创新发展若干措施》等政策,加速大模型应用落地,建设大模型算法及工具开源开放平台,构建完整大模型技术创新体系。 大模型分类及应用 Ø根据模型的应用范围和特定性可将大模型划分为通用大模型、行业大模型、垂直大模型和专有大模型。Ø通用大模型以其广泛的适用性和灵活性而受到青睐;行业大模型和垂直大模型则在特定领域内提供更加精准和专业的服务;而专有大模型则为特定组织提供了独特的竞争优势。 大模型在研发运营领域的应用现状 研发运营大模型与通用大模型的区别分析 Ø通用大模型具有广泛的知识基础、可灵活处理多种问题,往往是公开的,但资源消耗与维护成本较高。Ø研发运营行业大模型在研发运营领域更加专精,处理特定问题效率更高,并可以衍生多种定制化工具,助力企业提高生产力,且成本效益比更高。 中国信息通信研究院由大型科技公司或研究机构开发,并以API服务的形式提供给公众使用。由于其规模和复杂性,通常需要大量的计算资源进行训练和维护,维护成本较高。 软件研运大模型构建方式 打造研运行业大模型,高效的工具与流水线化加工扮演着至关重要的角色,包括语料收集与治理、基座模型选择与预训练、模型微调、模型评测与优化等。 定期评测模型的性能,并根据评测结果进行优化,涉及调整参数、使用不同的训练策略或引入提示词工程等。从技术角度分析,大模型的进化依靠人工反馈的强化学习,其采用的数据标注与过去那种用低成本劳动力完成的简单数据标注工作有所不同,需要专业的人士来写提示词,针对相应的问题和指令,给出符合人类逻辑与表达的高质量答案。但由于人工与机器的交互存在一定的隔阂,比较理想的模式是通过模型之间的交互来进行强化学习,即依靠模型反馈的强化学习。 基于预训练的行业大模型,行业管理部门、经营机构等可以使用私有语料开展模型微调。目前行业大模型常用的精调算法包括有监督精调和参数高效精调等。通过模型微调,行业机构即使在算力资源受限的情况下,也可以利用已预训练好的大模型迅速适配特定专业领域的任务,实现高效的迁移学习。微调技术包括prompt tuning、prefix tuning、LoRA、p-tuning和AdaLoRA等。 针对行业大模型,收集大规模高质量的行业专用语料,开展语料治理,包括数据清洗、格式转换、数据标签化等。 中国信息通信研究院根据业务需求,选择合适的模型框架体系,利用通用语料,结合行业专用语料训练,使其具备通识能力和行业语言理解能力。行业大模型的预训练过程,需要对大规模的行业无监督数据进行自监督训练和有监督调优。 在大模型训练时引入意识形态、公序良俗等价值观对齐语料的作用是,确保模型在实际运用中能够有效识别和过滤有害信息,构建更安全、更负责任的大模型,确保技术应用与社会道德及法律法规相一致。通过将负面标签语料、价值观对齐语料纳入训练集,模型会学习到哪些内容是不合适的,从而在用户与模型交互时能够识别出潜在的负