行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

2025年弹性状态报告：应对系统中断、宕机及组织准备情况

信息技术 2024-10-29 Cockroach Labs 大表哥

核心观点与关键数据

停机时间普遍且成本高昂：100%受访公司过去12个月因停机损失收入，平均每次损失至少10,000美元，大型企业损失更高。平均每年86次停机，每次196分钟，近半公司每周遭遇停机。
领导者担忧与准备不足：93%领导者担忧停机财务影响，95%意识到操作弱点，但48%认为组织韧性提升不足。CrowdStrike事件促使94%技术高管重新评估韧性。
停机原因多样：网络攻击、网络问题、软件问题、环境因素、人类错误、容量问题、硬件失败、云服务供应商可靠性、第三方服务失败是常见原因。
应对策略与挑战：多数组织进行弹性测试（如安全漏洞评估、系统备份恢复），但62%未进行故障转移测试。面临挑战包括领导层支持不足、预算限制、系统复杂性、技能缺乏等。
投资方向：49%计划投资自动化、AI和云基础设施；46%投资培训技能；49%投资硬件；大型公司更倾向AI自动化。

运营韧性及监管风险

新法规压力：DORA（2025年1月）和NIS2指令等法规要求提高运营韧性，79%受访者认为组织未完全准备好。违规可能面临高额罚款（最高500万欧元或年收入的1%）和业务限制。
全球监管趋势：英国、澳大利亚、香港、新加坡等地也出台或制定类似法规，美国正制定运营韧性标准。
SLA与合规：高可用性SLA（如99.999%）仍是目标，但停机无法完全避免。分布式SQL数据库（如Google Spanner和CockroachDB）提供高可用性SLA，但Spanner有云依赖性。

企业运营韧性策略

关键策略：采用分布式系统（如分布式SQL）以实现高可用性和故障自动处理；拥抱AI驱动的自动化以主动发现和解决风险；加强灾难恢复和合规协议。
分布式SQL优势：自动数据复制确保连续性，节点故障自动路由流量，提供高可用性和灾难恢复功能。支持在线更新和实时模式变更，减少计划停机时间。
符合监管要求：分布式SQL帮助满足DORA对事件管理和恢复的要求，通过数据加密和位置控制支持数据隐私法规（如GDPR），实现数据主权和可用性。

研究结论

停机时间频繁发生且成本高昂，企业需采取多线程策略提升韧性，包括投资技术、人力和自动化。面对日益严格的运营韧性法规，分布式系统（尤其是SQL数据库）成为关键解决方案，帮助企业实现高可用性、快速恢复和数据合规，从而增强整体运营韧性并降低风险。

面对停电、停机时间和组织准备执行摘要全球各地的1,000名高级云计算和技术管理人员对其组织运营韧性的看法——以及他们提高韧性的策略停电事件时有发生。尽管几乎所有人都意识到这一事实，但令人震惊的是，大多数企业在发生停电时发现自己面临着严重的后果，处于危险之中。近期CrowdStrike全球故障引发的连锁反应促使许多组织采取行动——本次调查中有94%的技术高管表示，该事件促使他们的公司重新评估其运营韧性。与此同时，在本报告中“2025年运营韧性状况”中接受调查的全球企业领导者们报告称，根深蒂固的变革阻力、内部优先级不匹配、过时系统和预算僵局阻碍了许多人实施有意义的——有时甚至是迫切需要的——运营韧性措施。 1. 领导们担忧：93%的领导者担心停电对财务和组织的影响，并且95%的人都意识到了导致他们易受攻击的操作弱点。同时，然而，48%的人表示，他们的组织在提高韧性方面做得还不够。 3. 停电已成为常态：平均而言，公司每年报告86次停电——相当于每周324分钟的停机时间。55%的公司每周遭遇停电，而14%的公司报告每天停电。 53%的银行和金融服务公司报告称，他们至少每周都会遭遇服务中断，零售和电子商务企业的情况也类似，60%的企业表示有相同经历。 2. 服务中断的高成本：在过去12个月内，接受调查的100%的公司都经历了因停机而导致的收入损失每个事故损失介于至少10,000美元以上以及高达1,000,000美元以上。这些不是小事。70% of large enterprise companies 1报告称，他们的故障通常需要60分钟或更长时间才能解决总体而言，近一半受访者表示，他们的平均停机时间在解决之前持续两小时或更长时间，其中10%的人表示，在他们能够恢复运营之前，他们损失了一个完整的工作日或更长时间。所有地区、ARR、公司规模和行业的平均停电时间为196分钟——或者说超过三个小时的服务中断。. 数据还显示，组织规模越大，年度收入损失越大。对于拥有1000名员工以上或年经常性收入（ARR）达到5亿美元的公司，由于停机造成的平均损失为495,000美元——尽管有的一些这些大型企业组织（8%）在过去12个月内报告了损失100万美元或以上。. 4. 非计划性停机造成的损失远超经济 6. 弹性投资已逾期：许多损失：从外部来看，它们导致消费者和商业合作伙伴信心受损，损害了组织的声誉。从内部来看，它们削弱了对负责防止或减轻故障的技术IT团队的信任。缺乏更大组织信任的工程团队在招募和留住优秀技术人员方面将面临困难。组织已知存在弱点，其中49%计划投资于自动化、人工智能和云基础设施以提高韧性。 7. 新的运营韧性法规即将颁布大的大多数接受调查的技术高管（79%）承认，他们的组织尚未完全准备好遵守新的运营韧性治理法规，例如DORA（2025年1月生效）和NIS2指令，使他们面临后果。近一半（44%）的人表示，他们因计划外的停机或故障带来的监管罚款和处罚而失眠。频繁的停电也增加了员工过劳和人员流动率的风险，当团队被迫错过其他截止日期（39%）和累积大量请求（43%）——而不得不加班或周末工作（48%）——以应对停电事故。 5. 准备工作不充分：仅有20%的受访者表示他们的组织完全准备好应对断电情况。仅有33%拥有有组织的应对方法，而不到三分之一定期进行故障切换测试。 EMEA（欧洲、中东和非洲）的 executives（85%）承认自己没有完全准备好遵守关于非计划停机和新规的比例高于APAC（亚太地区）的executives（76%）和北美executives（75%）。调查方法企业运营韧性调查由Cockroach Labs进行。威克菲尔德研究在1000名高级云架构师、工程与技术高管中，具备至少三位区域副总裁级别（北美[美国、加拿大]、EMEA[德国、意大利、法国、英国]、APAC[印度、澳大利亚、新加坡]），于2024年8月29日至9月10日之间，通过在线调查进行。任何样本的结果都受抽样变异的影响。这种变异的程度是可以测量的，并受访谈数量和表示结果百分比的级别的影响。对于本研究的访谈，全球样本中调查结果不发生变化的概率为95%，在3.1个百分点以内波动；在美国为6.9个百分点；在剩余的每个市场中为9.8个百分点，这是假设对样本所代表的全域中所有人进行访谈时得到的结果。引言仅仅几个月过去了，自从……迄今为止最大的全球软件故障CrowdStrike的故障造成了广泛的即时损害：数百万设备崩溃，数百万银行客户被切断与账户的联系。航空公司停飞数千架次航班，医院取消手术，大学取消课程。在一些地区，由于911呼叫中心离线，紧急警察、消防或医疗援助变得不可用。这场全球灾难的起因是每个技术人员的最恶梦：一家公司单个软件更新中的一个有缺陷的代码段。我们进行这次调查，是因为直到现在，运营韧性普遍被忽视。大多数公司关注灾难恢复（DR），这在发生中断后很重要。然而，运营韧性关注的是在服务中断发生之前预防其发生。可以规定公司如何运作，甚至是否允许其运营。数字也无法体现公司在遭遇重大故障后可能遭受的声誉损害——包括股票价值可能下降的情况。投资者信心受挫. 在今天异常复杂的技术架构中，由于其数字服务的互相依存性，任何可能出错的东西，最终都可能出错。本调查的结果证实了这一点：100%的调查公司在过去12个月中因故障而导致收入损失，每起故障的平均损失额至少为10,000美元，远超过100万美元。在整个企业和不同领域内，该调查的公司平均每年遭受86起故障；每次故障的平均持续时间为196分钟——即超过三小时的无故障运行时间。这项调查的数据表明，停电带来的成本远不止于经济层面，还可能引发长期影响。来自各行各业以及全球各地的资深技术领袖们透露了他们各自组织中当前的运营准备状况——以及他们提高运营弹性而不引入新风险的战略。这些数字虽然令人震惊，但仍不能代表停机时间的真实成本。这些数字并未包括欧盟及以外新运营弹性监管行动中可能征收的任何额外罚款或处罚。这些罚款可能会使停机本身的初始成本加倍，并且——因为这些法规具有法律效力——允许政府机构惩罚不合规的公司和报告分为六部分停电事件时有发生。然而，本调查收集的数据显示，尽管几乎所有人都意识到风险，但大多数企业在发生断电时发现自己处于危险地暴露于严重后果之中。. CrowdStrike故障让机构们行动起来，但根深蒂固的抵制变革、优先级错位、过时系统和预算僵局阻碍了许多人实施有意义的运营弹性措施。本报告分为六个部分：第一部分：2025年的运营韧性第二部分：企业灾难应急准备揭示2025年运营韧性的现状。组织多久遭遇一次停电？导致这种停机时间的常见原因是什么？服务中断发生时，究竟会带来怎样的财务和运营影响？查询公司如何应对断电，以及他们如何努力从源头预防。在提升组织运营韧性面临挑战时，他们会遇到什么困难，什么因素可能会阻碍他们的进步？第四部分：运营韧性与监管风险考察了平均组织在遵守关于运营韧性和在发生故障后数据丢失或损坏时遵守数据隐私法规的新法律要求方面的准备情况。第三部分：通往韧性的道路是观察公司为防止计划外停机和服务中断所采取的策略，以及他们改进的策略。组织将新的投资目标投向何处，以增强其当前的运营弹性？第五部分：关键要点与新兴企业运营韧性第6部分：分布式SQL如何帮助机构实现运营策略总结本报告的发现。这对试图在比以往任何时候都更加复杂的常规商业环境中运营，同时在不引入新风险的情况下实施积极变革的技术领导者意味着什么？韧性利用本报告中的数据点和启示，展示分布式应用架构如何帮助企业通过减轻导致故障的技术风险和弱点，提高其组织韧性。第一部分 2025年运营韧性技术领导者是否担心他们的运营弹性？总的来说，是的——而且理由充分。 1.1 实际停电成本及影响在本报告中调查的100%的技术高管表示，在过去12个月内，他们的公司因故障而亏损。恐惧被解雇总体上，82%的被调查领导者（在美国和亚太地区为87%，在欧洲为77%）表示担心他们或其技术团队成员可能会在重大故障或停机事件后丢掉工作. 金钱付诸东流在过去十二个月里，在所有行业、所有规模和年收入的公司中三分之一的受访者（32%）损失了10万美元或更多由于中断. 消防后果：除了放下工作日的职责去应对故障，整体上48%的executives 表示，他们的团队也必须加班和周末工作全面恢复正常运营。并且，玩家越强大，处罚越重：公司收入较高的（5000万美元以上）每年因停电造成的财务损失超过100万美元的可能性高出256%。表面上，这反映了当一家大公司发生故障时，影响的人数更多——但同时也说明了财务风险可以有多么高。同样的比例（48%）的人也表示，计划外的停机时间已经阻碍了他们的技术团队达成目标。——这反过来又产生了更多未计划的工作，包括准备和进行尸检和调查（39%）。损失的不只是金钱在这项调查中，100%的组织表示，停电对他们的技术团队和员工产生了重大负面影响。紧张的技术团队：不出所料，这通常会导致技术团队之间产生摩擦和相互指责（总体比例为43%，北美地区为48%）。大多数受访者（91%）表示，由于故障导致的加班和不断增加的工作积压是他们团队面临的主要压力因素。这进而可能导致潜在的倦怠和更高的员工流失率。立即放下一切：超出造成财务损失，计划外的停机或停电还会以其他方式干扰正常业务运营。事实上，92%的受访高管表示，他们的团队必须偶尔优先处理意外停机或故障，而将必要工作放在次要位置。三分之二（66%）的人表示他们经常甚至一直被迫将日常任务，如改进、维护或行政任务放在次要位置。 1.2 停电数据：频率与持续时间 100%的受访者表示在过去12个月内经历过计划外、意料之外的停机时间。尽管一致认为停机对公司造成财务和组织上的损失，但本报告收集的数据显示，非计划停机和服务中断并非孤立事件。大多数公司（69%）经历过中断/服务中断至少每周大约每七家公司中有一家（14%）出现故障是每日的常事。 53%的银行和金融服务公司报告称，每周或更频繁地经历故障或服务中断——零售/电子商务公司的情况也是如此，占比60%。时间就是金钱。当发生停电时，时钟的滴答声更加明显；这是一个时间就是金钱流失的时刻。令人震惊的是，当发生断电时，整体平均停电时间为151分钟。恢复时间（TTR）2为了解决停电问题（除非你在印度，那里的平均停电时间为211分钟）。总体而言，只有2%接受调查的公司表示他们能够在60秒或更短的时间内解决非计划性停电。 1.3 晚上让技术领导者失眠的忧虑本次调查中有93%的 executives 表示他们因计划外的停机时间影响而夜不能寐。并且为此报告收集的数据显示，他们确实有充分的理由：86%的人表示，每分钟不计划的停机时间都可能是他们失去顾客的一分钟，可能是永久的。除了显而易见的财务影响，还有许多其他因素引起高管焦虑：监管报复：44%总体（欧洲、中东和非洲地区为85%）的人担心在发生停电时可能会被征收的监管罚款和处罚，罚款可能高达500万欧元（约合550万美元），以及监管机构可能限制不合规实体经营业务，直到它们合规为止的风险。 93% 数据灾难：每三个领导者中就有一个（36%）担心数据在计划外的停机期间被破坏，甚至完全丢失/被毁。数据丢失困扰着小型和中型企业初创公司和全球知名企业：无论公司规模、历史长短、收入或所在地，这个比例都非常一致。在此项调查中的高级管理人员表示，他们对非计划停机的后果感到夜不能寐。可能的惩罚：82%的领导者承认，他们的团队担心技术员工会因为计划外的停机或故障而被解雇。在经历更频繁停机（每月几次或更多，88%）的公司，或者平均停机时间较长的公司（停机两小时或更长时间，88%），这一数字更高。职业担忧：几乎一半（44%；北美地区为49%）的人担

点击免费查看完整报告

你可能感兴趣

劳森对6月16日当周中小型肿瘤学的准备情况：关于宏观、SNDX和KURA的投资者对话。专有内容：炉边谈话（OLMA）、催化剂预览（BPMC、KURA）、EHA要点、Cabo脚本趋势、生物技术情绪。接下来：炉边谈话（RXRX、INCY提供一对一交流）；2025年生物技术创新组织会议（6月16 - 19日）；6月17日血液学关键意见领袖电话会议；6月24日肺癌关键意见领袖晚宴

医药生物巴克莱银行2025-06-16

2025年弹性状态报告：应对系统中断、宕机及组织准备情况

核心观点与关键数据

运营韧性及监管风险

企业运营韧性策略

研究结论

你可能感兴趣

评估化石燃料进口中断的准备情况

全球对登革热和其他伊蚊传播的虫媒病毒的战略准备、准备状态和应对计划

2025年构建值得信赖的人工智能：框架、应用和准备状态的自我评估报告

亚洲生产力组织（APO）：2025年APO生产力准备度报告

如何加强供应链弹性和抗风险能力：应对供应链中断

网络弹性组织：防弹恢复的最大准备

公共卫生实验室应对呼吸道传染病的准备情况——欧盟/欧洲经济区国家对新冠肺炎大流行经验教训的看法

2024年基于智能传感和物联网技术的变电设备状态感知及主动分析系统报告

防范大流行性流感（PIP）伙伴关系捐款（PC）实施情况年度审查会议东南亚地区供资和应对新威胁的准备和复原力模拟演习（PRET）

2025年弹性状态报告：应对系统中断、宕机及组织准备情况

你可能感兴趣

评估化石燃料进口中断的准备情况

全球对登革热和其他伊蚊传播的虫媒病毒的战略准备、准备状态和应对计划

2025年构建值得信赖的人工智能：框架、应用和准备状态的自我评估报告

亚洲生产力组织（APO）：2025年APO生产力准备度报告

如何加强供应链弹性和抗风险能力：应对供应链中断

网络弹性组织 ： 防弹恢复的最大准备

公共卫生实验室应对呼吸道传染病的准备情况——欧盟/欧洲经济区国家对新冠肺炎大流行经验教训的看法

2024年基于智能传感和物联网技术的变电设备状态感知及主动分析系统报告

防范大流行性流感（PIP）伙伴关系捐款（PC）实施情况年度审查会议东南亚地区供资和应对新威胁的准备和复原力模拟演习（PRET）

网络弹性组织：防弹恢复的最大准备