您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:确定性运维白皮书——稳定可靠篇2.0 - 发现报告
当前位置:首页/其他报告/报告详情/

确定性运维白皮书——稳定可靠篇2.0

2024-07-29-华为测***
确定性运维白皮书——稳定可靠篇2.0

确定性运维白皮书 稳定可靠篇2.0 让运维成为智能世界变革的加速器 主 办 华为云计算技术有限公司SRE部 顾 问 高江海安宇 主 编 林华鼎 副主编徐殿军 企业 联合共创 百联全渠道电子商务有限公司青岛海尔科技有限公司极米科技股份有限公司广州趣丸网络科技有限公司金蝶软件(中国)有限公司湖北人福医药集团有限公司珠海金山办公软件有限公司云智慧(北京)科技有限公司上海奥朗信息科技有限公司(SRE社区)厦门美图之家科技有限公司深圳市迷你玩科技有限公司 (排名不分先后) 企业撰稿人刘亚丹陆兴海刘琪宋爽邹俊褚佳琪(按姓氏笔画排序) 企业审稿人王善良王书航王关胜石鹏刘磊刘峰张宇张观石杨国龙杨力波聂江峰黄强元曾华山 (按姓氏笔画排序) 撰稿人 马宁万少飞马韬 马宇王宏基王福强王勋 王本轩 王宇飞 王彦 白挥孙嘉宸白强 刘天瑞刘勇刘涛 刘军刘运鑫米辉朱紫佑 汪庆愿 汤夕根 陈锡金 陈星陈玉何元 余琛帅龙陈伟俊李世才李晓聪何运宋云开吴子坚杨向南杨凯张勇张智铭张家顺张亮张松张三华张增福张波金逸凯林华鼎罗星武平郑磊周岩武周扬帆高金 姜雪高文科郭小刚聂刚郭旭东唐余鹏徐殿军徐洪能常盛然谢文敏谢志远曾维富 廖声伟黎宏刚(按姓氏笔画排序) 审稿人 邓怀刚王福强冯楙龙宽卢三超白强华越昊刘军曲鸿超阮巍陈锡金陈星余晖杨晓赵凤海聂刚黄城景帅谢文敏雷厚卿蔡攀(按姓氏笔画排序) 李要锋 评审组 王萌萌王志刚王磊王一凡米鹏辉陈伟俊陈永李浩李伟李东晨张勇罗星(按姓氏笔画排序) 熊旭 编辑 李超群吴文辉贺丽萍韩江荟(按姓氏笔画排序) 联系 电子专刊、索阅、投稿、建议和意见反馈请联系SRE部 邮箱 snzx1@huawei.com 地址 东莞市松山湖高新技术产业开发区环湖路9号华为溪流背坡村 邮编 523830 无担保声明本资料内容仅供参考,华为云计算技术有限公司不对本资料所有内容提供任何明示或暗示的保证,包括但不限于适销性或者使用与某一特定目的的保证,在法律允许的范围内,华为云计算技术有限公司在任何情况下都不对使用本资料任何内容而产生的任何特殊的、间接的、继发性的损害进行赔偿,也不对任何利润、数据、商誉或预期节约的损失进行赔偿。(内部发行,免费赠阅) 版权归属版权归华为云计算技术有限公司所有,保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 录 目CONTENTS 前言01 第一章确定性运维稳定可靠之路03 第二章运维管理体系能力实践07 第三章运维技术体系能力实践09 第四章高可用能力实践12 4.1业务可用性度量(SLO/SLI)设计12 4.2架构高可用设计23 4.3监控设计35 第五章持续交付能力实践49 5.1生产准备度评审(PRR)49 第六章运维能力可信实践56 6.1故障快恢56 6.2混沌工程67 6.3性能压测76 6.4告警管理85 第七章风险治理能力实践93 7.1变更风控93 7.2护航102 7.3数据驱动运营106 第八章资源治理能力实践112 8.1容量管理112 8.2成本管理120 第九章安全合规能力实践135 9.1安全生产135 9.2出海运维合规147 前言 当企业的IT智能化水平不高时,对IT运维运营的业务连续性要求并不严格。随着科技的进步和市场竞争的加剧,企业在数字化转型的浪潮中迎来了新的挑战与机遇。在这一转型过程中,企业的生产力发生了深刻的转移,从传统的依赖人工操作和有限的信息处理能力,转变为高度依赖智能化的IT系统和数据分析能力。传统运维模式在应对数字化业务需求时,显得力不从心。随着信息技术的迅猛发展,大数据、云计算、人工智能等新技术不断涌现,对运维工作提出了更高要求。因此,从运维入手进行数字化转型,不仅是对技术的升级,更是对业务流程和管理模式的全面革新。 这一变革使得企业对业务“安全可靠”的依赖程度大幅提升。在数字化时代,企业的运营数据、客户信息和业务流程都高度集中在IT系统中,一旦系统出现故障或数据泄露,将对企业的运营和声誉造成巨大损失。因此,确保IT系统的稳定运行和数据安全成为了企业不可忽视的重要任务。 同时,数字化转型也提升了企业对业务“智能运营”的需求。通过大数据分析和人工智能技术,企业能够实现对业务数据的实时监控和预测分析,从而更精准地把握市场趋势和客户需求,优化业务流程和决策过程。这种智能运营能力不仅提高了企业的运营效率,还为企业带来了更多的商业机会和创新空间。 此外,数字化转型还提升了企业对“资源高效”的诉求和“业务敏捷”的要求。在数字化时代,企业需要能够快速响应市场变化和客户需求,同时实现资源的优化配置和高效利用。这就要求企业具备强大的IT基础设施和灵活的运维管理能力,以确保业务的快速部署和稳定运行。 确定性运维作为保障企业业务高效稳定运行的重要一环,其核心在于确保系统的稳定性、可靠性以及高效性,从而助力企业实现安全可靠、智能运营的目标。 确定性运维旨在构建可防、可控、可治的运维管理体系。首先是通过高质量的产品开发,严谨的运维流程和制度来降低故障的概率,要挑战零故障,同时也要有技术手段对可能发生的故障,将间隔、影响范围及故障恢复时间做到可防、可控、可治,要把数字化带来的“不确定性”通过运维变成“确定性”。 在确定性运维的推动下,企业可以实现资源的高效利用。通过合理的资源规划、分配和调度,企业能够避免资源的浪费和闲置,提高资源的利用率。此外,确定性运维还能够通过自动化、智能化的手段,降低运维成本,提高运维效率,为企业节省大量的人力和物力资源。 业务的敏捷发展是确定性运维的另一大目标。随着市场竞争的加剧,企业需要能够快速响应市场需求,调整业务策略。确定性运维通过提供快速迭代、持续集成的运维环境,帮助企业加快业务创新的步伐,可以帮助企业更快地响应市场变化,提高效率和生产力,提高客户满意度。 展望未来,确定性运维在数字化转型中的作用将更加凸显。随着人工智能、大数据等技术的不断发展,确定性运维将实现更高级别的自动化和智能化。通过引入机器学习算法和数据分析技术,运维人员能够更精准地预测系统性能、优化资源配置,进一步提升系统的稳定性和可靠性。 在数字化转型过程中,运维团队扮演着至关重要的角色。他们需要对现有系统进行深入分析和评估,识别出潜在的优化点和改进空间。同时,还需要积极引入新技术和新工具,提升运维的自动化和智能化水平。通过构建高效的云管平台,实现资源的统一管理和优化调度,从而提高企业的运营效率和服务质量。 数字化转型不仅涉及技术的升级和工具的引入,更需要对企业的组织架构和业务流程进行深度优化。通过优化组织架构,打破部门壁垒,实现跨部门协同作战,提高企业的响应速度和创新能力。同时,对业务流程进行重塑,实现业务的数字化和智能化处理,进一步提升企业的运营效率和市场竞争力。 总之,确定性运维可以确保企业在安全可靠、智能运营、资源高效、业务敏捷四个维度上实现业务目标。而安全 可靠中的稳定可靠是企业数字化转型的生命线,本册白皮书,我们将重点探讨如何从管理体系和技术体系的角度构建确定性运维稳定可靠体系,帮助企业实现运维体系的革新,支撑企业的业务数字化转型。 可以说,确定性运维已经成为数字世界变革的加速器,是新质生产力的核心组成部分。它不仅推动了企业数字化转型的深入发展,还为企业带来了更多的商业价值和竞争优势。从运维入手全面启动数字化转型是一个复杂而系统的工程,需要企业高层领导的重视和支持,以及全体员工的共同努力和协作。通过引入新技术、优化组织架构、重塑业务流程、保障数据安全等措施,企业可以逐步构建出符合自身特点的数字化转型路径,实现业务的全面升级和转型。 第一章 确定性运维稳定可靠之路 确定性运维的稳定可靠实现之路是一条系统性和综合性的路径,基于华为云实践总结,需要从质量文化、高可用架构、动态风险治理以及智能运维工具这四个方面全方位入手。 质量文化是基础 高可用架构是前提 动态风险治理是保障 智能运维是未来 确定性的高质量文化 确定性失效率 确定性爆炸半径 确定性恢复时长 运维组织变革 开发与运维共同SLO 作业可信 确定性恢复 数据智能运营 全生命周期主动运维 自动恢复智能告警智慧故障定位数据&演算法 稳定可靠体系框架图 1.质量文化 质量文化是确定性运维的基石。一个注重质量的文化能够激发团队成员对运维工作的责任感和使命感,从而确保工作的精细化和标准化。为了构建高质量文化,需要: a.自上而下,从最高层面强调和践行质量的重要性,并将其纳入核心价值观; b.构筑开发与运维团队共同的质量目标和方法; c.在运维团队开展组织变革,不断提升组织能力,牵引用软件工程的方法解决问题,从“消防员”向“建构师”转型。 2.高可用架构 高可用架构是确定性的前提,通过设计合理的架构,可以降低系统故障的风险,缩短故障恢复的时长,并且控制故障的影响范围,高可用架构的设计与落地需要关注如下三点: a.瞄准SLO的目标,运用科学的方法进行架构的设计,对可用性架构的选择以及落地时间进行管理; b.在产品规划设计、上线运行阶段,给运维团队授予相应的责权利,对开发和商用计划有所制约,确保可用性需求落地; c.在产品运行维护期间,有计划地对高可用设计进行验证,以确保系统符合设计要求。 3.动态风险治理 动态风险治理是应对不确定性和突发事件的重要保障手段。其本质也是对变更、故障模式、业务运行数据的识别开展全生命周期的主动运维和能力构建: a.针对变更作业的风险,开展全面的能力建设,包括版本发布架构体系建设、账号权限管理、自动化变更能力建设等; b.针对已知和未知的故障风险,通过科学的方法梳理故障模式库(树),并目的地进行快恢能力建设,一方面制定应急预案和响应机制,确保在突发事件发生时能够迅速响应和处理,另一方面定期组织演练和复盘,验证可用性架构运行情况以及团队应急响应能力; c.业务运行态数据的智能运营,是指导团队开展工作持续改进的核心基础能力,需要构建一套实时的采集以及数据运营系统,以支撑业务决策。 4.智能运维工具 智能运维工具能够提高运维工作的效率和质量,降低人力成本。尤其是AI时代,通过引入自动化、智能化等技术手段,团队可以更加高效地管理和维护系统,有几个原则: a.选择合适的工具和技术,确保其与业务需求和技术栈相匹配,如自动化部署、故障预测、智能定界定位等; b.将工具与现有系统进行整合,根据实际需求进行定制和优化,以满足特定的运维需求; c.关注新兴技术和发展趋势,不断更新和升级智能运维工具,提升运维水平。 确定性运维的达成确实是一个自上而下、全技术团队共同努力,以及意识、组织、文化、方法和模式的转变。 1.转意识 转变意识是达成确定性运维的首要任务。团队成员需要认识到运维不仅仅是一个支持性的角色,而是业务连续性和稳定性的关键保障。这要求大家从传统的“救火队员”角色转变为前瞻性的“守护者”,以预防性的思维来规划和执行运维工作。 2.转组织 组织结构的调整对于实现确定性运维至关重要。团队需要打破传统的部门壁垒,建立跨部门协作的机制,确保从开发到运维的各个环节能够无缝衔接。同时,建立明确的责任划分和沟通渠道,确保问题能够迅速定位和解决。 3.转文化 企业文化的转变是实现确定性运维的重要支撑。团队需要倡导一种注重质量、向前端要质量的文化氛围。鼓励成员开放、合作、创新的文化氛围。此外,建立奖惩机制,对质量工作中表现突出的个人或团队给予表彰和激励、同时也对忽视质量的团队和个人予以警示。 4.转方法 方法的转变是实现确定性运维的关键环节。团队需要引入先进的运维理念和技术手段,如自动化、智能化等,提高运维效率和质量。同时,建立标准化的操作流程和监控体系,确保运维工作的规范化和一致性。此外,利用数据分析和预测技术,提前发现并解决潜在问题,降低故障发生的概率。 5.转模式 模式的转变是实