灾难恢复规划 概述 在规划企业连续性时需要考虑的突发事件的范围在最近几个月中不断扩大。与此同时,基于互联网的业务应用也在不断增多,这都使得灾难恢复规划必须关注广域网(WAN)环境和一些传统问题,例如数据的冗余存储。企业规划人员可以利用CiscoAVVID(集成化语音、视频和数据体系结构)提高网络和应用的弹性,而且必须理解网络服务供应商所提供的技术和WAN服务。 简介 最近发生的事件凸现了灾难恢复规划的重要性,表明了人们对于扩大灾难恢复规划的范围的需要。 在大型计算机时代,备份计算机中心是灾难恢复的主要中心。今天,越来越多的企业开始发展电子商务,它们通常在内联网上处理很多内部员工事务,在外联网上管理它们与主要客户的供应商的合作关系。这种以互联网为中心的方式对信息技术(IT)基础设施提出了新的要求,即它们必须能够每周7天、每天24小时地不间断运行,而且并不只是在企业内部发挥作用。 很多企业目前所依靠的IT资源不仅包括数据中心,还包括企业的LAN基础设施和将所有办公室、应用和用户互联在一起的WAN。业务的成功运营取决于所有这些组件的连续性。在《InformationWeek》杂志最近对读者所做的一项调查中,将近50%的受访者都制定了正式的数据备份和恢复计划,但是其中只有不到一半的计划涉及到了关键性的分布式业务流程、主要供应商的外联网等组件的连续性。 用户无法访问所需数据所导致的问题和丢失数据一样严重。因为灾难恢复规划的目标是确保业务的连续性,因此有效的规划必须包括业务保护(防范攻击、病毒、蠕虫等)和业务灵活性(分散和移动资源,以便最大限度地提高在所有情况下的生产率)。 GartnerGroup对一个富有弹性的企业的定义是:"能够从任何一种挫折中恢复过来,无论是自然灾害、不利的经济变化、竞争对手的攻击、网络间谍还是恐怖袭击。"Gartner在它于2002年1月28日发布的一份报告中指出,在他们所调 查的企业中,只有大约三分之一的企业针对物理资产和工作场所完全被毁的情况制定了计划。本文将概括介绍灾难恢复规划,并重点介绍该计划在WAN方面的作用。 如果发生下列情况,您应当怎么办? 您的总部、数据中心或者主PBX被毁? 支持着5000个台式机和服务器的网络被毁? 分布在45个城市的分支机构与关键任务型应用之间的连接被切断? 在发生这样一个灾难之后,莱曼兄弟公司第二天就重新开始营业,这主要归功于: 分散的数据中心和同步的数据文件,通过一个城域网相连 通过基于互联网的虚拟专用网(VPN)连接重新建立与分支机构的连接 设在宾馆房间里的临时办公室可以通过VPN技术连接到企业网络 语音流量通过IP重新路由到位于其他城市的备用公共网关 什么会导致灾难? 在了解灾难恢复规划的主要组成部分之前,我们首先应当确定灾难的定义。表1列出了公认的灾难的一些最常见原因: 表1公认灾难的最常见原因 1火灾 2风暴(龙卷风、飓风等) 3洪水或者其他与水有关的灾难 4极高或者极低的温度、湿度等 5地震、泥石流或者其他地表运动 6汽车或者飞机碰撞 火灾是最常见的灾难。美国消防协会报告说,在所有经历过一次大规模火灾的企业中,43%的企业没有能继续营业,而78%的企业在三年内宣告破产。 其他原因导致的灾难也会给企业带来巨大的损失。在1992年,芝加哥地区的一场洪灾导致该市Loop地区的两百多栋建筑物停电一周以上,影响到了一千多家企业。在1998年,加拿大魁北克省的一场猛烈的冰暴导致当地企业遭受了超过 10亿美元的损失。 幸运的是,《InformationWeek》杂志在2002年对读者开展的一项调查显示,55%的受访者都打算在2002年增加信息安全开支,大约30%的受访者计划增加在业务连续性规划或者准备方面的开支。 一项全面的计划 在发生任何一种灾难时,都需要考虑各种形式的损失: 物理设施(受损的建筑物、工作场所、计算机、库存) 对设施的访问(报废的建筑物) 信息(受损的磁盘和计算机) 对信息的访问(没有远程数据库访问) 人员(生产人员、支持人员、管理人员) 一个全面的灾难恢复规划必须采取所有必要的措施来确保业务的长期顺利运行。这意味着必须研究和分析每个物理组件、每个软件组件、每个人力资源组件和每个业务流程,以及每个元素可以接受的风险程度。必须考虑财务和管理问题。有效的规划应当考虑到所有潜在的灾难,这其中包括自然灾害、恐怖袭击、网络灾难等。(请参阅附录A中的关于如何准备和管理网络灾难的信息)此外,必须考虑到向规划的"备份"模式的转变。"供应链"分析是一种有用的技术,可以用于恢复企业的物理资产。规划的这个部分应当阐明怎样处理不可用的生产或者存储设施、订单输入系统、发货、应收账款和支付系统、备用部件和客户服务。时间也是一个非常重要的因素。GartnerGroup最近建议企业将关键流程和应用的恢复时间缩短到24小时以内,并将非关键性应用的恢复时间缩短到四天以内。 应当将三种解决方案视为规划流程的组成部分。一个企业可以(1)构建它自己的冗余系统(例如,拥有两个独立的工厂,每个负责部分工作);(2)提前为需要在紧急情况下使用的设施签约(例如由某个灾难恢复服务公司拥有和管理的热点数据中心);或者(3)购买可以抵消由于灾难会导致的损失的保险(例如抵消为了满足紧急需要而租用设施或者购买产品、部件的成本)。对于大多数企业来说,没有哪一种单一的方式是最好的;最有效的方法就是综合使用上面这三种广泛的战略。 主要设备的供应商是所有规划的重要组成部分。确保供应商拥有足够的部件、人员和资金资源,以便在发生大规模灾难的情况下迅速地帮助您摆脱困境。 灾难恢复规划的关键是如何有效地传达和执行这些计划。在灾难发生之间与员工进行有效的交流非常重要,这可以让他们知道如何采取紧急措施。Citigroup的一位领导人在《InformationWeek》于2001年晚些时候发表的一篇文章中指出:"如果您不能正确地做到这一点,在灾难降临时您的公司将会陷入一片混乱。如果不为灾难做好充分的准备,您的公司可能会破产。" 如果您觉得制定一项有效的灾难恢复/业务连续性规划似乎超出了您的能力范围,尤其是在内部专业经验十分有限的情况下,您可以从商用市场上选择各种表格和软件工具和模板。附录A列出了多种可以为您提供帮助的工具。 IT视角 从IT的角度来说,一项全面的灾难恢复规划应当包含网络弹性、通信弹性和业务应用弹性。一个富有弹性的网络首先应当具有有效的设计和架构,可以提供移动性和安全性,并以专门针对高可用性而设计的平台为基础。在设计中,冗余有助于消除单点故障,而快速、自动的故障切换可以确保迅速的恢复。对于流量设计、负载均衡和服务质量(QoS)的关注将能够处理性能低下或者不符合预期的流量负载,这些负载可能会在没有故障时阻塞用户对于业务应用的访问。 通信方面需要考虑的是语音和PBX流量,以及数据流量。IP电话可以作为语音通信的主要或者备用方式,而IP联络中心则可以提高企业与主要客户和供应商保持联络的能力。最近的一些媒体报道介绍了一些将IP语音连接作为通信的唯一方式,而放弃采用PBX系统和电话交换机的例子。基于IP的语音通信网络有助于提高移动性,实现员工的迅速调配--无论是到预先规划的备份地点还是到会议中心和宾馆房间中的"临时办公室",都能迅速开展工作。 在应用方面,重要的业务应用必须保持可用性,而关键的企业和客户信息必须能够迅速恢复。因此必须使用备用数据中心和异地数据备份和存储功能。(本文稍后将介绍如何通过WAN连接中心和终端用户) 要获得成功,灾难恢复规划在IT方面需要阐述的内容并不仅限于企业的数据中心。一个有效的计划至少应当涉及到: 数据中心环境,包括服务器、存储、供电和HVAC 用户环境(PC、LAN、应用和客户端软件) 企业内部通信设施(建筑物内部、园区内部) 外部通信设施(电信运营商服务和线路) 管理(管理中心、帮助台、专业技能) 灾难恢复公司Comdisco在纽约市发生911事件之后发表了一篇关于灾难恢复的报告,中指出:"恢复工作的效果绝大部分体现在业务终端用户身上--即计算的终端。通常这些业务终端用户环境并不享有像数据中心那样的连续性规划。" 除了上面介绍的IT因素以外,规划还应当考虑到,在灾难发生后的很短时间内,电子邮件、网站、电话、专用线路的使用率可能会大大超过平时。此外,由于网络中可能需要加入新的地点,网络流量的使用模式也会发生变化。 规划还应当阐明,除了更换所损失的物理资产以外,企业在一次灾难之后很可能立即需要的多种不同类型服务的来源。这些服务可能包括: 保护和安全服务 残骸清理服务 抽水和相关的清洁服务 清理HVAC系统、管道等 从受损的介质中恢复数据 为员工提供后勤服务 网络的复杂性使得企业很难实现业务的弹性。在制定针对业务连续性、保护和灵活性的计划的过程中,复杂程度越低越好。最大限度地减少提供设备的供应商的数量和去除无用的旧设备是实现这种网络简便性的关键步骤。 WAN考虑因素 现代企业需要依靠网络通信来开展重要的业务,而LAN和WAN环境都必须准备就绪,以便员工履行他们的职责。灾难恢复规划在工作场所方面的组成部分一定要纳入LAN和WAN访问所需要的设备。 要保持WAN的可用性,以支持业务的发展,就意味着利用目前最可靠、最富有弹性的软件,利用谨慎的网络设计,遵循从设计到日常操作的最佳实践,建立高度可用、容错的系统和平台。 成功的WAN设计并不仅仅关注于连接性。确保业务弹性的原则之一就是尽量分散人员和信息资产,以降低风险的理念。呼叫中心并不需要集中,数据也可以复制,同时需要为所有员工提供对关键性业务应用(例如订单输入和客户服务)的访问。一个富有弹性的WAN设计需要集成冗余,以消除单点故障;需要采用流量负载均衡技术,以确保连续的服务和可以接受的响应;需要具有快速的故障切换能力,以实现快速的恢复,此外还应当为每种情况制定相应的安全措施。这些都构成了很多挑战。LAN或者园区环境中实际可用的带宽和电信运营商所提供的带宽之间存在着明显的差异。尽管T1线路的价格比较合理,而且应用非常广泛,但是需要大幅度增加预算,例如对于T3和OC3服务而言。目前在城区提供的一些基于光纤传输技术的新型服务可以在很大程度上解决这个问题,最近的一些产品的价格非常低--100Mbps快速以太网服务的价格只有每月1000美元。当然利用QoS技术将WAN设计为一个可以同时传输语音/数据/视频流量的网络也是降低成本的重要手段。 WAN需求规划应当包括怎样连接现有的数据中心和现有的员工工作地点,怎样连接现有的数据中心和备用的员工工作地点,以及怎样连接备份数据中心和现有的员工数据中心。如果在不同的地点提供了异地数据存储,例如在某个电信运营商的设施中,那么WAN需求规划中还必须加入这种连接。所有情况都应当包括对互联网连接的配置,这可以用于一般性应用,以及帮助主要供应商和重要客户管理外联网。 无论采用怎样的网络设计和技术,都必须为设施和线路提供不同的物理路由。大多数被认为是冗余网络的系统发生故障的原因都是光纤或者电路都需要经过同一个管道、出入孔或者中央机构。 创建WAN的方法通常分为三类。每种方法都有一定的优点和缺点,需要企业用户投入的工作量(和设备)也各不相同。这些方法(如图1所示)分别是: 自行建设,即利用由电信运营商或者其他网络服务供应商提供的租用线路 (或者"通道"),例如T1、T3、SONET或者光纤波长,建立点对点的通道 采用帧中继(FR)或者ATM服务,它们可以在两点之间建立面向电路的"虚拟通道" 采用高级的无连接光传输网络服务,例如城域以太网或者城域IP 图1WAN建设方案 在第一种方法中,最常见的方式是购买SONET/SDH(同步光网/同步数字结构)通道。常用的SONET传输等级是OC-3(每秒155Mb-Mb/s)、OC-12(622Mb/s)和OC-48(2488Mb/s,但是通常被