面对停电、停机时间和组织准备 执行摘要 全球各地的1,000名高级云计算和技术管理人员对其组织运营韧性的看法——以及他们提高韧性的策略 停电事件时有发生。尽管几乎所有人都意识到这一事实,但令人震惊的是,大多数企业在发生停电时发现自己面临着严重的后果,处于危险之中。 近期CrowdStrike全球故障引发的连锁反应促使许多组织采取行动——本次调查中有94%的技术高管表示,该事件促使他们的公司重新评估其运营韧性。与此同时,在本报告中“2025年运营韧性状况”中接受调查的全球企业领导者们报告称,根深蒂固的变革阻力、内部优先级不匹配、过时系统和预算僵局阻碍了许多人实施有意义的——有时甚至是迫切需要的——运营韧性措施。 1. 领导们担忧:93%的领导者担心停电对财务和组织的影响,并且95%的人都意识到了导致他们易受攻击的操作弱点。同时,然而,48%的人表示,他们的组织在提高韧性方面做得还不够。 3. 停电已成为常态:平均而言,公司每年报告86次停电——相当于每周324分钟的停机时间。55%的公司每周遭遇停电,而14%的公司报告每天停电。 53%的银行和金融服务公司报告称,他们至少每周都会遭遇服务中断,零售和电子商务企业的情况也类似,60%的企业表示有相同经历。 2. 服务中断的高成本:在过去12个月内,接受调查的100%的公司都经历了因停机而导致的收入损失每个事故损失介于至少10,000美元以上以及高达1,000,000美元以上。 这些不是小事。70% of large enterprise companies 1报告称,他们的故障通常需要60分钟或更长时间才能解决总体而言,近一半受访者表示,他们的平均停机时间在解决之前持续两小时或更长时间,其中10%的人表示,在他们能够恢复运营之前,他们损失了一个完整的工作日或更长时间。所有地区、ARR、公司规模和行业的平均停电时间为196分钟——或者说超过三个小时的服务中断。. 数据还显示,组织规模越大,年度收入损失越大。对于拥有1000名员工以上或年经常性收入(ARR)达到5亿美元的公司,由于停机造成的平均损失为495,000美元——尽管有的一些这些大型企业组织(8%)在过去12个月内报告了损失100万美元或以上。. 4. 非计划性停机造成的损失远超经济 6. 弹性投资已逾期:许多 损失:从外部来看,它们导致消费者和商业合作伙伴信心受损,损害了组织的声誉。从内部来看,它们削弱了对负责防止或减轻故障的技术IT团队的信任。缺乏更大组织信任的工程团队在招募和留住优秀技术人员方面将面临困难。 组织已知存在弱点,其中49%计划投资于自动化、人工智能和云基础设施以提高韧性。 7. 新的运营韧性法规即将颁布 大的大多数接受调查的技术高管(79%)承认,他们的组织尚未完全准备好遵守新的运营韧性治理法规,例如DORA(2025年1月生效)和NIS2指令,使他们面临后果。近一半(44%)的人表示,他们因计划外的停机或故障带来的监管罚款和处罚而失眠。 频繁的停电也增加了员工过劳和人员流动率的风险,当团队被迫错过其他截止日期(39%)和累积大量请求(43%)——而不得不加班或周末工作(48%)——以应对停电事故。 5. 准备工作不充分:仅有20%的受访者表示他们的组织完全准备好应对断电情况。仅有33%拥有有组织的应对方法,而不到三分之一定期进行故障切换测试。 EMEA(欧洲、中东和非洲)的 executives(85%)承认自己没有完全准备好遵守关于非计划停机和新规的比例高于APAC(亚太地区)的executives(76%)和北美executives(75%)。 调查方法 企业运营韧性调查由Cockroach Labs进行。威克菲尔德研究在1000名高级云架构师、工程与技术高管中,具备至少三位区域副总裁级别(北美[美国、加拿大]、EMEA[德国、意大利、法国、英国]、APAC[印度、澳大利亚、新加坡]),于2024年8月29日至9月10日之间,通过在线调查进行。 任何样本的结果都受抽样变异的影响。这种变异的程度是可以测量的,并受访谈数量和表示结果百分比的级别的影响。对于本研究的访谈,全球样本中调查结果不发生变化的概率为95%,在3.1个百分点以内波动;在美国为6.9个百分点;在剩余的每个市场中为9.8个百分点,这是假设对样本所代表的全域中所有人进行访谈时得到的结果。 引言 仅仅几个月过去了,自从……迄今为止最大的全球软件故障CrowdStrike的故障造成了广泛的即时损害:数百万设备崩溃,数百万银行客户被切断与账户的联系。航空公司停飞数千架次航班,医院取消手术,大学取消课程。在一些地区,由于911呼叫中心离线,紧急警察、消防或医疗援助变得不可用。这场全球灾难的起因是每个技术人员的最恶梦:一家公司单个软件更新中的一个有缺陷的代码段。 我们进行这次调查,是因为直到现在,运营韧性普遍被忽视。大多数公司关注灾难恢复(DR),这在发生中断后很重要。然而,运营韧性关注的是在服务中断发生之前预防其发生。 可以规定公司如何运作,甚至是否允许其运营。数字也无法体现公司在遭遇重大故障后可能遭受的声誉损害——包括股票价值可能下降的情况。投资者信心受挫. 在今天异常复杂的技术架构中,由于其数字服务的互相依存性,任何可能出错的东西,最终都可能出错。本调查的结果证实了这一点:100%的调查公司在过去12个月中因故障而导致收入损失,每起故障的平均损失额至少为10,000美元,远超过100万美元。在整个企业和不同领域内,该调查的公司平均每年遭受86起故障;每次故障的平均持续时间为196分钟——即超过三小时的无故障运行时间。 这项调查的数据表明,停电带来的成本远不止于经济层面,还可能引发长期影响。来自各行各业以及全球各地的资深技术领袖们透露了他们各自组织中当前的运营准备状况——以及他们提高运营弹性而不引入新风险的战略。 这些数字虽然令人震惊,但仍不能代表停机时间的真实成本。这些数字并未包括欧盟及以外新运营弹性监管行动中可能征收的任何额外罚款或处罚。这些罚款可能会使停机本身的初始成本加倍,并且——因为这些法规具有法律效力——允许政府机构惩罚不合规的公司和 报告分为六部分 停电事件时有发生。然而,本调查收集的数据显示,尽管几乎所有人都意识到风险,但大多数企业在发生断电时发现自己处于危险地暴露于严重后果之中。. CrowdStrike故障让机构们行动起来,但根深蒂固的抵制变革、优先级错位、过时系统和预算僵局阻碍了许多人实施有意义的运营弹性措施。本报告分为六个部分: 第一部分:2025年的运营韧性 第二部分:企业灾难应急准备 揭示2025年运营韧性的现状。组织多久遭遇一次停电?导致这种停机时间的常见原因是什么?服务中断发生时,究竟会带来怎样的财务和运营影响? 查询公司如何应对断电,以及他们如何努力从源头预防。在提升组织运营韧性面临挑战时,他们会遇到什么困难,什么因素可能会阻碍他们的进步? 第四部分:运营韧性与监管风险考察了平均组织在遵守关于运营韧性和在发生故障后数据丢失或损坏时遵守数据隐私法规的新法律要求方面的准备情况。 第三部分:通往韧性的道路是 观察公司为防止计划外停机和服务中断所采取的策略,以及他们改进的策略。组织将新的投资目标投向何处,以增强其当前的运营弹性? 第五部分:关键要点与新兴企业运营韧性 第6部分:分布式SQL如何帮助机构实现运营 策略总结本报告的发现。这对试图在比以往任何时候都更加复杂的常规商业环境中运营,同时在不引入新风险的情况下实施积极变革的技术领导者意味着什么? 韧性利用本报告中的数据点和启示,展示分布式应用架构如何帮助企业通过减轻导致故障的技术风险和弱点,提高其组织韧性。 第一部分 2025年运营韧性 技术领导者是否担心他们的运营弹性? 总的来说,是的——而且理由充分。 1.1 实际停电成本及影响 在本报告中调查的100%的技术高管表示,在过去12个月内,他们的公司因故障而亏损。 恐惧被解雇总体上,82%的被调查领导者(在美国和亚太地区为87%,在欧洲为77%)表示担心他们或其技术团队成员可能会在重大故障或停机事件后丢掉工作. 金钱付诸东流 在过去十二个月里,在所有行业、所有规模和年收入的公司中三分之一的受访者(32%)损失了10万美元或更多由于中断. 消防后果:除了放下工作日的职责去应对故障,整体上48%的executives 表示,他们的团队也必须加班和周末工作全面恢复正常运营。 并且,玩家越强大,处罚越重: 公司收入较高的(5000万美元以上)每年因停电造成的财务损失超过100万美元的可能性高出256%。表面上,这反映了当一家大公司发生故障时,影响的人数更多——但同时也说明了财务风险可以有多么高。 同样的比例(48%)的人也表示,计划外的停机时间已经阻碍了他们的技术团队达成目标。——这反过来又产生了更多未计划的工作,包括准备和进行尸检和调查(39%)。 损失的不只是金钱 在这项调查中,100%的组织表示,停电对他们的技术团队和员工产生了重大负面影响。 紧张的技术团队:不出所料,这通常会导致技术团队之间产生摩擦和相互指责(总体比例为43%,北美地区为48%)。大多数受访者(91%)表示,由于故障导致的加班和不断增加的工作积压是他们团队面临的主要压力因素。这进而可能导致潜在的倦怠和更高的员工流失率。 立即放下一切:超出造成财务损失,计划外的停机或停电还会以其他方式干扰正常业务运营。事实上,92%的受访高管表示,他们的团队必须偶尔优先处理意外停机或故障,而将必要工作放在次要位置。三分之二(66%)的人表示他们经常甚至一直被迫将日常任务,如改进、维护或行政任务放在次要位置。 1.2 停电数据:频率与持续时间 100%的受访者表示在过去12个月内经历过计划外、意料之外的停机时间。 尽管一致认为停机对公司造成财务和组织上的损失,但本报告收集的数据显示,非计划停机和服务中断并非孤立事件。大多数公司(69%)经历过中断/服务中断至少每周大约每七家公司中有一家(14%)出现故障是每日的常事。 53%的银行和金融服务公司报告称,每周或更频繁地经历故障或服务中断——零售/电子商务公司的情况也是如此,占比60%。 时间就是金钱。当发生停电时,时钟的滴答声更加明显;这是一个时间就是金钱流失的时刻。令人震惊的是,当发生断电时,整体平均停电时间为151分钟。恢复时间(TTR)2为了解决停电问题(除非你在印度,那里的平均停电时间为211分钟)。 总体而言,只有2%接受调查的公司表示他们能够在60秒或更短的时间内解决非计划性停电。 1.3 晚上让技术领导者失眠的忧虑 本次调查中有93%的 executives 表示他们因计划外的停机时间影响而夜不能寐。 并且为此报告收集的数据显示,他们确实有充分的理由:86%的人表示,每分钟不计划的停机时间都可能是他们失去顾客的一分钟,可能是永久的。除了显而易见的财务影响,还有许多其他因素引起高管焦虑: 监管报复:44%总体(欧洲、中东和非洲地区为85%)的人担心在发生停电时可能会被征收的监管罚款和处罚,罚款可能高达500万欧元(约合550万美元),以及监管机构可能限制不合规实体经营业务,直到它们合规为止的风险。 93% 数据灾难:每三个领导者中就有一个(36%)担心数据在计划外的停机期间被破坏,甚至完全丢失/被毁。数据丢失困扰着小型和中型企业初创公司和全球知名企业:无论公司规模、历史长短、收入或所在地,这个比例都非常一致。 在此项调查中的高级管理人员表示,他们对非计划停机的后果感到夜不能寐。 可能的惩罚:82%的领导者承认,他们的团队担心技术员工会因为计划外的停机或故障而被解雇。在经历更频繁停机(每月几次或更多,88%)的公司,或者平均停机时间较长的公司(停机两小时或更长时间,88%),这一数字更高。 职业担忧:几乎一半(44%;北美地区为49%)的人担