DevOps的自动化 2022 表的内容 345 执行关键 总结发现 数字的影响转换和 混合动力工作 不断发展的技术堆栈对事件反应 711 服务事件正变得 更加复杂和具有挑战性来解决 自动化和行为实践缓解服务事件 复杂性 1516 结论接受调查的人员统计 执行概要 数字化转型继续加速,并成为整个行业的关键业务战略企业,导致需要更快地交付创新。同时,混合工作具有将企业推向超数字化时代,并放大了ITOps的复杂程度团队正面临。这种转变凸显了公司的低效率,包括人工和 复杂的流程,因为它们会遇到资源紧张和增加的停机时间。 对1,046名IT运营、DevOps和站点可靠性工程的第二次年度行业调查 (SRE)专业人员,在美国担任副总裁、董事、经理和个人贡献者拥有超过300名员工的组织旨在: •更好地了解ITOps、DevOps和SRE团队如何应对 随着不断发展的现代堆栈、事件和问题解决需求的增加 •确定团队在解决自动化事件和障碍时面临的挑战 •评估组织实施自动化和SRE实践的机会,以实现高效的操作 调查结果强调了对自动化和SRE实践的需求日益增加组织继续采用混合工作环境并执行数字化转型 措施。由于流程效率低下、修复时间较长和缺乏自动化, 团队被驱使扩大他们的技术堆栈。该研究还发现,更好的协作方法和工具以及利用人类判断是成功增强的关键 服务可靠性,更快地解决事件并扩展自动化。 重要发现 1.62.9%的受访者表示,服务事故的频率有所增加,这些事故在过去一年(2021年3月至今)影响了他们的客户。 2.导致服务事件增加的首要因素是数字化转型(60.7%)、推出新产品或产品更新(55.1%),方法和工具协作无法充分支持他们的团队远程工作(49.3%). 3.52.3%报告了在整个过程中解决事件所需的时间增加去年,48.6%说需要15-30分钟才能找到合适的团队成员一起来解决这一事件。 4.45.7%的组织在最后12个月。 5.39.7%的受访者表示,他们组织的停机成本在去年(2021年3月到现在)。 6.为了在未来12个月内改进其事件管理流程,组织计划: 实施新的自动化工具或应用程序(48.2%),实现新的通信/协作工具或应用程序(41.5%)和实施新的工具或集成 应用程序(40.6%). 7.75.6%的受访者表示,人们越来越关注网站可靠性工程过去12个月中在其组织中的实践。 8.83.2%的受访者表示,高达50%的工程运营流程是自动化的。 9.80.4%的受访者表示,自动化应该让人类在关键时刻使用他们的判断决策点更可靠和有效的。 10.90%的受访者表示,他们的组织会跟踪 人类在事件解决期间,但56.5%的SRE表示他们手动进入该数据进入ITSM系统或其他系统或记录。 数字转换的影响 混合工作不断发展的技术堆栈事件响应 数字化转型仍然是企业的首要考虑因素,90.2%的组织 报告称,去年对数字化转型的关注度有所提高——仅下降了3%来自2021年的研究。这种对数字化转型举措的持续重视,加上采用混合工作模式的组织数量增加,从50.4%跃升至73.5%2021年,已推动73.4%的公司扩大其技术堆栈。 您的组织在应对大流行带来的变化方面做了哪些工作与劳动力? 扩大了73.4% 他们的技术堆栈与新工具/平台 55%雇佣了更多团队成员 减少了15.8%员工人数 在那些使用新工具和平台扩展技术堆栈的人中,98.4%的人表示他们在可预见的未来将继续使用它们。 尽管增加了新工具,但组织仍然缺乏平台和平台的完全集成事件响应期间使用的服务,使解决事件更具挑战性。 事实上,只有24.7%的受访者表示他们所有工具都是通过一个工具或平台集成的,这是一个从2021年下降19.1%。 我们所有的工具都通过一个工具或平台集成24.7% 6.9% 7.3% 我们的一些工具通过一个工具或平台集成49.2% 24.7% 11.9% 我们将所有工具与聊天平台集成11.2% 我们将一些工具与聊天平台集成在一起7.3%我们的工具集成6.9% 49.2% 如果没有完全集成用于事件响应的工具,75.3%的组织、团队冒着延迟修正过程和增加停机时间的风险,这可能导致 Wi58.2%的受访者报告 停机时间(即。、应用程序中断服务退化)他们的组织成本 平均每小时499999美元,公司不能浪费时间不同 不同的工具和手动采取行动。 降低服务质量可靠性,并最终降低运营影响。 服务事件越来越多解决复杂和困难 调查结果显示,加速了数字化转型计划、混合工作和 不断扩展的技术堆栈增加了技术操作的复杂性。DevOps、SRE和 IT团队因影响 62.9%的受访者表示频率增加影响其客户的服务事件, 69.5%的受访者表示,个人应对以下行为负责可靠性工程正面临挑战,同时 试图解决事件发生。 客户,并在尝试解决事件时遇到挑战。 虽然观察到服务频率增加的总百分比 事件比去年的研究减少了27.5%,这意味着一些组织已经进行了调整疫情带来的大规模数字化转型——大多数人仍在报告 事件增加。这表明团队在减少事故方面仍需要更多支持和解决他们发生。 在过去的一年中(2021年3月至今),您是否观察到影响您的客户的服务事件的频率? 增加1-25%26.9% 1.5%0.2% 26-50%增加25.0% 6.8% 超过50%的增长11.0% 28.6% 26.9% 没有变化28.6% 11.0% 减少1-25%6.8% 26-50%降低1.5% 25.0% 减少超过50%0.2% 在报告服务事件增加的人中,受访者认为最高 推出的新 产品或产品更新55.1% 招聘的挑战,如 缺乏合格的候选人 49.3% 无法大规模招聘一样快 随着业务30.1% 45.4% 方法和工具 没有正面的合作quately支持他们的团队远程工作49.3% 没有自动化解决方案 实施帮助 防止事故或加速事件缓解 30.1% 21.9% 21.9% 01020304050607080 促成因素包括数字化转型(60.7%),推出新产品或产品更新(55.1%)以及协作方法和工具不足以支持他们的远程工作团队(49.3%)。 数字转换 组织变革(例如, 基础设施(例如,云 团队成员流失,涌入 60.7% 迁移)60.7% 新的团队成员,并购活动)45.4% 55.1% 团队必须使用新工具远程解决事件的复杂性,并且 推动数字化转型计划,52.3%的受访者表示所需时间增加解决过去一年中的事件。 增加1-25%23.9% 1.5%0.2% 26-50%增加20.0% 11.3% 23.9% 超过50%的增长8.4%没有变化34.7% 减少1-25%11.3% 34.7% 20.0% 26-50%降低1.5% 8.4% 减少超过50%0.2% 团队在采取行动解决事件时面临的三大挑战是: 达到正确的专业的人 知识是困难的 (52.9%) 太多的手册流程(缺乏 自动化)(49.3%) 脚本设计 常见的自动化响应行动( 扩展基础设施)变化太脆弱 在工具api(46.7%) 在报告解决事件所需时间增加的受访者中,受访者报告了以下原因作为前三个促成因素: 缺乏统一的沟通 队友(人合作使用 不同的各种工具)(45.2%) 流程已经改变了还是难以理解而远程工作(41.5%) 缺乏可见性依赖什么团队或人负责代码或 基础设施(38.8%) DevOps的自动化| 由于解决问题的时间滞后,组织 经历了更多的停机时间为39.7%报道称,停机的成本增加了 在过去的一年。 将合适的人员聚集在一起解决事件所需的时间有助于 停机时间成本增长。 48.6%的受访者表示,将合适的团队成员聚集在一起需要15-30分钟才能 解决事件。对于担任副总裁/总监/经理SRE角色的受访者来说,金额几乎翻了一番30%的人表示需要31分钟到一个小时才能将合适的团队成员聚集在一起解决问题一个事件。 与2021年的研究类似,组织正在寻求实施工具来改善其事件管理流程并降低MTTR,优先考虑新的自动化工具(48.2%),来年的沟通/协作工具(41.5%)和集成工具(40.6%)。 实现新 通信/ 协作工具 或应用程序41.5% 实现新 事件运行手册 或检查清单32.5% 更加关注我们继续 通过我们的改进事后检验和审查, 荷兰国际集团(ing)事件34.6% 41.5% 48.2% 40.6% 实现新 自动化工具或应用程序48.2% 实现新 监视或 可观测性工具 38.8% 改变和, 规划设计流程 32.5% 38.8% 13.4% 21.5% 34.6% 13.4% 实现新 集成工具 或应用程序40.6% 增加 待命的工程师 21.5% 不打算 做任何修改 10.2% 10.2% 010 20 30 40 50 DevOps的自动化| 超过四分之三(75.6%)的受访者表示越来越关注站点可靠性工程 过去12个月中在其组织中的实践。之 35.1%的受访者计划扩大SRE在 2022.此外,65.1%的组织计划招聘网站可靠性工程师在未来12个月内。 自动化和行为实践缓解服务事件的复杂性 有趣的是,那些更加关注SRE实践的组织经历较少 重大事件比依赖运营团队获得站点可靠性的事件要大。45.7%的受访者表示在过去的12个月中,他们的团队遇到了6到19起重大事件。 42.4% 26.7% 超过503.5% 3.5% 0 10 20 30 40 50 在过去的12个月中,您的团队遇到了多少重大事件? 小于542.4%6-1026.7%11-1919.0% 19.0% 20-508.4% 8.4% 进一步细分,那些更加关注站点可靠性的组织 工程实践并计划在2022年扩大SRE工作,39.8%表示他们的团队遇到了去年发生的重大事件少于5起。相比之下,近三分之一的受访者 (29.4%)在依赖运营团队承担站点可靠性责任的组织中在过去12个月中经历了20起或更多重大事件。 DevOps的自动化| 该研究表明,组织继续看到实施SRE实践的价值。 尽管需求不断增长,但SRE仍在执行手动、耗时的任务。 超过一半的SRE(56.5%)表示他们手动输入数据放入ITSM系统或其他记录系统以保留 跟踪人类在 解决这一事件。 为了避免受到低效和复杂流程的阻碍,团队正在转向自动化。 自动化可以通过简化某些部分来帮助使手动任务更轻松、更快捷补救过程并减少服务事件的发生。 事实上,100%的副总裁/总监/经理SRE引用了服务事件减少或没有变化 因为他们的组织实现自动化 有助于减少服务事故数量的技术。 83.2%的受访者表示,高达50%的工程运营流程是自动化的。您的工程运营流程中有多少百分比是自动化的? 1.9% 1-10%12.75% 11-25%32.7% 26%-50%37.8% 51%或更多15.0% 没有一个1.9% 15.0% 37.8% 12.75% 32.7% 但是,组织在构建内部平台或工具时遇到了资源压力 用于自动化。当被问及维护自定义内部工具需要多少工作或 用于自动化DevOps工作流程的机器人,38.6%的组织表示他们需要一个或多个完整的机器人工程师的时间。 每年1-3个月的时间,一个工程师12.1% 4-6个月的时间做一个工程师24.1%8.7%12.1% 7.3% 一个工程师months-17年的时间16.6% 一个全职的工程师12.6% 2-5全职工程师18.7% 18.7% 24.1% 6个或更多全职工程师7.3%12.6% 我们没有自定义内部工具或机器人8.7% 此外,42.3%的SRE表示目前的水平自动化不能满足其组织的需求, 他们正在积极寻求新的解决方案来解决这个问题。 团队正在寻求自动化以减少手动流程。当被问及他们想要什么时自动化,受访者表示: 16.6% 基础设施供应 通信外部客户 获取数据和图表从可观察性和