CrowdStrike停运后,您应该问您的团队什么? 当公司争先恐后地解决弹性问题时,高级领导人应该进一步思考。 本文由CharlieLewis、JanShellyBrown、JimBoehm、RaghavanJanardhanan和RichIsenberg共同撰写,代表麦肯锡技术公司的观点。 ©GettyImages 2024年7 月 7月19日,CrowdStrike(网络安全平台提供商)发布了一个更新,该更新导致850万台MicrosoftWindowsPC和服务器崩溃。计算机没有启动,而是显示“死亡蓝屏”,关闭端口,阻止消费者使用ATM,并延迟医疗程序。1 虽然CrowdStrike在同一天发布了修复程序,但企业必须进行艰巨的过程,以安全模式手动重新启动数万台服务器和PC,并在安装修复程序之前删除与错误更新相关的文件。 这不是网络攻击,也不是唯一的。最近发生了几次广泛的软件中断,在整个价值链中造成了严重破坏,例如今年的勒索软件攻击使汽车经销商无法开展业务,医疗保健提供商无法收到付款,或者不稳定的老化系统使假日旅行者陷入困境几年前。 自从停电开始以来,我们已经与业务和技术高管进行了数十次讨论,以努力解决其影响。技术团队已经动员起来解决他们公司面临的问题。有一个 在提供资源、支持和指导方面,高级商业领袖的重要作用。在这里,我们提出了他们应该问的问题,以确定如何减轻这一事件的影响,并降低下一个事件的风险。 我们对这个问题的理解 全球近四分之三的计算机运行MicrosoftWindows操作 系统,包括运行应用程序的公司服务器和员工使用的笔记本电脑或PC。2 CrowdStrikeFalcon传感器是一种端点检测和响应(EDR) 产品。它在PC和服务器上安装代理,以识别和 包含恶意软件和其他类型的网络攻击。为了应对不断变化的威胁,CrowdStrike每天有时会安装多次配置更新-7月19日发布的配置更新是错误的。由于Falcon代理在较低级别运行,并且在Windows启动过程的早期加载,因此修复无法使用自动化软件分发工具,需要手动干预 。 以下是发生了什么: —7月19日,星期五,在4:09UTC,其中一个通道文件更新出现逻辑错误,当触发时,会导致Windows崩溃。 —有问题的通道文件(通道文件291)用于提供评估逻辑 并防止滥用命名管道(命名管道是机制Windows用于进程间或系统间通信). —通道文件中的更新旨在瞄准并保护新观察到的恶意命名管道用于网络攻击中的常见C2(命令和控制)框架。3 通道文件中的逻辑错误影响了在4:09UTC之后下载更新的 所有MicrosoftWindows系统。在5:27UTC之后联机的系统收到了更新的通道文件(回滚到以前的稳定版本),并且不受影响。 鉴于CrowdStrike的代理在Windows内核中的特权地位,补救需要对每个受影响的端点进行手动活动: —对于笔记本电脑/PC:补救涉及反复重新启动MicrosoftWindows主机以尝试自动修复问题;如果这不起作用,则后续步骤需要在安全模式下重新启动计算机并删除有问题的文件。 1“大规模的技术中断正在造成全球中断。这是我们所知道的,”美联社,2024年7月19日。 2“2013年1月至2024年2月台式机操作系统的全球市场份额”,Statista,2024年3月5日。3“技术细节:Windows主机的猎鹰内容更新”,CrowdStrike,2024年7月20日。 2CrowdStrike停运后,您应该问您的团队什么? 对于出于安全原因选择加密最终用户硬盘的公司来说,情况会更加复杂。 —对于云主机:修复涉及在4:09UTC之前“回滚”到快照,或者分离系统磁盘卷,手动修复问题并重新附加卷。 这种中断的性质说明了IT组织必须在更新其环境以防止网络攻击与管理可能引入不稳定的更改之间进行权衡。 立即:如何加速和维持复苏 受影响实体的技术组织在停电当天启动了恢复工作 。他们建立了作战室, 与利益相关者沟通,并制定技术补救计划以恢复运营 。 尽管如此,高级管理人员应该提出一些问题,以确保恢复工作尽可能快和可持续: 我们的团队需要什么来维持补救的步伐? 对于自停电以来一直不间断工作的IT团队来说,这是一段艰难而紧张的时期。他们需要多长时间才能跟上步伐 ,这取决于他们的技术环境的复杂性和受影响的计算机数量。 高级领导人可以问他们的恢复团队,他们需要什么才能看到努力到底——可能需要更多的资源来修复系统,或者可能就像执行团队成员参观作战室一样简单,以证明公司有多重视他们的努力。 IT部门能否邀请最终用户帮助修复PC和笔记本电脑?在某些情况下,IT员工会希望自己解决问题。这些努力是必要的 有了明确的说明,最终用户就可以在安全模式下启动计算机,删除有问题的文件,然后重新启动,从而使IT支持人员不必自己接触数千台计算机。 我们对员工和客户是否足够透明和响应?Thisoutagehasmassiveaffectedemployeesandcustomers.Pastoutagesindicatesthattakethetimetoacknowledgetheimpactand 直接沟通你知道什么(和你不知道什么)非常重要。在一次大型勒索软件攻击后,一家公司的首席执行官打电话给主要客户道歉并解释这一事件。即使几年后,客户仍然认识到并欣赏这一点。 有时,透明度和同理心是不够的。受影响公司的许多客户不仅经历了不便,而且遭受了经济损失,关于要考虑哪种类型的补偿,未来可能会有挑战性的决定。 在未来的日子里:如何降低未来事件的风险 这样的事件将再次发生。提供商将遭受中断和其他问题,这些问题将 破坏公司开展业务的能力。为了管理这些风险,高级管理人员应该提出一些问题,帮助他们的公司准备和减少此类事件的影响: 我们的风险是否具有经济,运营和技术透明度? 看到工厂,流程或站点无法在几天或几天内运行会带来什么经济影响?许多公司不知道。哪些支持关键业务流程的应用程序在弹性技术平台上运行,哪些应用程序陷入技术债务中,从而产生风险?许多公司对此有一定的认识,但没有系统和可靠的数据。 如果一家公司遇到问题,哪些技术供应商可以让他们停业几天? 有多少公司在监控他们的EDR CrowdStrike之后你应该问你的团队什么停电?3 在上周之前,平台作为顶级技术风险?高级管理人员可以而且必须推动对不同类型的风险进行量化和优先排序。 我们应该进行哪些架构更改来增强弹性——它的成本是多少?首席信息官和首席技术官们经常为企业投资新功能而不是减少技术债务和提高弹性的热情而苦苦挣扎 。它的业务案例有限-直到中断导致数百万美元的收入损失发生。在这种情况下, “可重新铺设”的基于云的系统,可以通过一次触摸重新启动,这可能会加速恢复。可以在区域之间进行故障转移的地理弹性应用程序体系结构可以确保可用性。高级管理人员应该问技术团队:我们没有投资什么,我们应该投资什么?在某些情况下,公司可能需要大幅增加技术支出以实现弹性。 他们需要。 我们是否需要在变更流程中引入更多的分期和测试?几乎所有的弹性问题都源于变化。有人在某个地方更改了配置或更新了一个软件,破坏了复杂的技术生态系统,使公司无法开展业务。 但是,将新更新部署到1%或5%的节点可以大大减少在发布有缺陷的情况下的中断。此分阶段模型需要更多资源,但可能 考虑到中断风险的降低,投资是值得的。 我们的灾难恢复/业务连续性(DR/BC)规划和测试是否足够广泛和可靠? 每个公司都计划DR/BC。但是,许多公司都以不完整和敷衍的方式进行了计划。高级管理人员可以提出以下问题: —我们的DR/BC计划是否根据业务优先级测试并推送了各种方案? —要做更多的实时测试,技术团队会提出 在DR环境中的应用程序,而不是进行基于纸张的练习? —进行高级危机模拟,为执行团队在发生重大停电时可能需要用有限的信息做出的艰难决定做好准备 ,这是否有意义? 我们的整个经济运行在复杂的,有时是脆弱的技术平台上,公司有责任向股东和客户提供“全天,每天”的业务流程支持。高级管理人员可以通过询问有关响应速度以及防止或限制下一次事件的影响的尖锐问题来获得他们需要的洞察力,以支持和推动IT经理了解这一当务之急 。 查理·刘易斯是麦肯锡斯坦福德办公室的合伙人,JanShellyBrown是新泽西办公室的合伙人,吉姆·博姆是伦敦办公室的合伙人,RaghavanJanardhanan是金奈办公室的合伙人里奇·伊森伯格是亚特兰大办事处的合伙人. 版权所有©2024麦肯锡公司。保留所有权利。 4CrowdStrike停运后,您应该问您的团队什么?