[阿里云 阿里云 白皮书 卓越架构 AlibabaCloud Well-ArchitectedFramework 阿里云卓越架构白皮书 contents 目录 CONTENTS O - 前言 01 日 安全合规 04 1、安全设计原则 05 2、安全风险识别和检测 LO 3、安全防护 08 4、监控和分析 15 5、响应和恢复 17 目 稳定性 19 1、责任共担模型 20 2、设计原则 21 3、设计方案 22 四 成本优化 OE 1、设计原则 31 2、云上成本管理 32 五 卓越运营 44 1、卓越运营设计原则 45 2、设计阶段 46 3、构建阶段 49 4、运营阶段 55 因 高效性能 56 1、架构设计 57 2、性能测试 62 3、性能监控 64 4、性能优化 66 结束语 69 前言 一.前言 INTRODUCTION 相比于传统IDC环境,云计算的基础设施和服务在不断快速送代和演进,对云 用户而言,在上云、用云、管云过程中持续维持良好的云上架构变得极具挑 战。对云上应用来说,稳定、安全、性能、成本是架构设计中最通用领域的抽象,也是组织层面最需要关注的几个维度。基于多年服务各行各业客户的经验 总结,我们将阿里云上的架构设计最佳实践总结为一系列的方法论和设计原 则,形成阿里云卓越架构框架(AlibabaCloudWell-ArchitectedFrame- work),以帮助云用户构建良好直至卓越的云上架构。 阿里云卓越架构白皮书 阿里云卓越架Well-ArchitectedFramework 安全合讯本优化中胜选营高效性肤 污量模型 基略设能史全帮格高可用双本良量自动化 预管性 改更快温 合短审计限本优化 方法论和最佳实践产品和解决方案评估和度量专家服务和生态伙伴 阿里云卓越架构包含以下五个架构最佳实践支柱: 安全合规 识别企业内部、外部的安全要求和监管诉求,在云环境中针对网络安全、身份安全主机安全、数据安全等全方位地进行规划和实施,同时持续对威胁进行检测和快速响 应。 稳定性 无论在何种环境都无法避免单个组件故障的发生。稳定性的目标就是要尽量降低单个组件故障对业务带来的整体影响。该支柱侧重于如何让业务系统利用现代云平台的基础设施达到高可用,做到面向失败设计,具备一定容灾性的能力。同时把控应用系统 的变更流程、部署架构、配置规范等,制定企业应用治理规范,设定应用层面的治理 标准。 成本优化 通过技术手段了解云资源的成本分布。帮助企业平衡业务目标与云上成本,通过充分高效使用云服务来构建业务应用,尽可能提升云环境和业务需求之间的契合度,通过持续优化来避免资源浪费,减少不必要的云上开支并提升运营效率。 阿里云卓越架构白皮书 卓越运营 侧重于应用研发态、运行态相关工具与系统的构建和使用,同时也需要考虑组织内如何对应用、工作负载、资源、事件等进行响应,定义日常操作流程,指引企业构建自已的运营模型。 高效性能 根据性能监控指标自动触发弹性伸缩能力,通过云平台的资源储备应对流量高峰,建立完备的可观测性体系协助定位性能瓶颈。通过性能测试手段建立性能基线,验证架构设计目标并持续优化。 基于这五大支柱,卓越架构提供相应的设计原则和最佳实践,以及可落地的方案。同时,卓越架构还提供了免费的架构评估工具和度量模型,来评估当前架构设计与期望值的差距,并提供相应的改进指引和方案。在设计和实施过程中,阿里云提供了专家服务和认证的合作伙伴,协助架构的演进。 阿里云卓越架构框架面向的是首席技术官(CTO)、架构师、运维、安全、 研发等角色。通过了解卓越架构中定义的最佳实践和解决方案,组织中的这些职能角色能够不断的将应用架构和卓越架构中的最佳实践进行比较,并不断进行架构的送代和改进,从而降低风险、控制成本、提升效率,为业务的高速发展提供坚实的基础。 D3 安全合规 二.安全合规 SECURITY 安全管理的目的是风险管理,识别企业内部、外部的安全要求和监管诉求,在云环境中针对网络安全、身份安全、主机安全、数据安全等全方位地进行规划和实施,同时持续对威胁进行检测和快速响应。 云安全的责任模型是共担的责任模型,基于云的客户应用,云供应商要保障云平台自身安全并提供相应的安全能力和产品给云上的客户。客户则负责基于云供应商提供的服务或原子化能力构建保障应用系统或业务的安全体系。 4 阿里云卓越架构白皮书 云上客户安全责任 用户账户安全 用广业务安全用户应用安全用户款据安全 阿王云云盾安全 用户安全服务&云安全生态 蓝和运营 用户基配安全 云平台安全责任 云平台内部身 云产品安全惠拟化安全 控云平台安全品 阿里云平台侧 安全能力 份与访问控制硬件安全 物理安全 安全设计原则 安全需要设计和规划,应在构建基于云或本地数据中心的的同时,建设安全系统和相关控制措施,建立配套安全管理流程和机制,建立安全意识管理体系等。将技术控制措施、管理流程、人员组织配套融入云基础设施的构建、 业务开发,应用上线和日常运营当中。 同步建设、同步规划、同步运营 风险评估安全建设安全管理安全运营 安全运营持织推动安全端设 评估当购企业总陷目 体系化、系统化、 以安全治理的视角 同步建设运营机制 标和元业务一致性: 有一定方法论指导 规划整传云上云下 和运营体系: 通过咨询的方式评估 律没相应的控制 安全管理手段: 维发理问源和风 当的云计算环境下风 险的可能性和影响 险推动安全建设和安全治理 风险评估包括了技术 风险、管理程风险和法神风险 05 阿里云卓越架构白皮书 整体建议如下 。评估当前企业战略目标和云业务一致性。 通过咨询和风险评估工具的方式评估当前云计算环境下风险的类别,发生的可 能性和影响。 。评估架构风险,管理风险以及合规风险。 。参考方法论建设安全体系,包括参考框架,技术控制措施和运营机制。 建立安全运营体系持续识别风险,推动安全框架的更新送代和技术控制措施的 优化。 通用的安全设计原则有 最小化原则数据安全保护原则 安全最小化原则是最基本的原则之企业应结合实际应用和业务特性,有 ,对外提供的服务越少,安全风险意识的建立数据分类分级制度和体 越小。其中包含网络最小化原则、系,通过相关技术控制手段对权限、 份最小化原则、权限最小化原则。访问途径进行管理,并保护数据在存 储和传输过程中的安全。 审计可追溯原则合规性原则 尽可能确保所有来自用户端的访问请企业基于阿里云基础设施构建的业务求留有审计记录,以便于在发生网络系统和对外提供的服务,应充分考虑攻击事件时,能够通过云资源操作日当地的法律法规要求。在安全架构设志、云资源访问日志以及变更日志还计过程中,应充分分析和理解法规要原攻击事件,追溯攻击过程,帮助企求,并标记能够满足法规要求的相关业判断和定位攻击事件的等级、影响技术控制措施,和管理控制措施。 和损失。 阿里云卓越架构白皮书 安全风险识别和检测 安全风险识别和检测包含以下4个维度,通过梳理企业客户上云面临的整体风险,才能有针对性的对安全架构进行建议、检测和建设。 基础架构的风险识别和检测云上基础架构包含了网络架构和身份体系,要评估和识 别当前网络的架构设计方法,是否符合安全最小化原则 和纵深防御原则。 云平台配置风险识别和检测企业使用云产品创建的配置文件是否符合安全原则,需 要进行识别和自动化检测,可基于云安全最佳实践和行 业合规要求建立符合企业自身的“云安全基线”也被称 之为“Baseline",通过标准识别和检测上云风险。 资产脆弱性的风险识别云上的资产可分为工作负载(ECS、容器、Server- 和检测leSs)、基础网元(EIP、NAT、SLB等)、应用 (PaaS服务、域名、镜像等),面对资产的脆弱性(包 含资产基线和资产漏洞)应该进行事前的风险识别和检 测,并进行维护。 合规风险的识别合规包含了外部合规和内部合规。外部合规指的是面向 监管的合规,内部合规指的是面向内部审计、管理的合 规。 阿里云卓越架构白皮书 安全防护 3.1账号规划 云账号是最基本的资源管理单元,它是云资源的计量、计费及资源归属的基本主体。云账号不仅是资源的容器,也是资源安全隔离的边界。一个云账号对应了云上的一个租户,租户不能访问相互之间未授权的系统资源。借助该特性,建议为不同应用的不同环境创建单独的云账号,用于区分需要完全隔离的IT环境或系统。在发生安全问题时,能够有效缩小爆炸半径,降低故障 影响面。 因此建议在上云初期,就参考阿里云云采用框架CAF(CloudAdoptionFramework)进行体系化的上云规划,搭建LandingZone环境。无论是 初次上云还是已经上云的客户,都可以通过阿里云云治理中心(Cloud GovernanceCenter)快速搭建符合阿里云最佳实践的多账号上云环境。 3.2身份和访问控制 在整体的云上安全架构设计中,身份和访问控制是云计算环境下非常重要的安全措施,良好的身份和权限的设计,能够确保只有授权的身份才能够在指定的条件下访问对应的云资源。它涉及到识别用户和身份(身份验证),确定该身份可以访问哪些资源(授权),以及审计相应身份的访问和操作记录 (监控和审计)。 08 阿里云卓越架构白皮书 →身份管理 身份是指在云环境中执行操作的实体。云上主要有两种身份类型:人员身份和程序身份。人员身份通常代表组织中的个人,比如企业中的安全管理员、运维管理员、应用开发者。通常通过阿里云的控制台、CLI、特定场景下的客户端等方式对云上的资源进行操作。 人员身份的管理有以下最佳实践: 避免使用Root身份在阿里云官网注册阿里云账号后,即可通过用户名和密 码的方式登录到阿里云控制台,登录成功后,即获得了 Root身份。该身份具有该账号下所有的权限,一旦账号 密码泄漏,风险极高。应该尽可能的使用阿里云访问控 制RAM(ResourceAccessManagement)身份进行 云上资源的访问。 实现人员身份的统一认证通过集中化的身份提供商(IdentityProvider,简称 IdP)来进行人员身份的统一认证,能够简化人员身份 的管理,确保组织内在云上、云下的人员身份的一致性。阿里云支持基于SAML2.0协议的单点登录(Sin-gleSignOn,简称Sso)。在阿里云上,我们建议通 过云S5O或RAMSSO的方式跟组织内的IdP进行集成, 实现人员身份的统一认证。 建立更安全的登录机制对于人员身份来说,保护好登录凭证(如用户名和密 码)能够有效降低身份泄漏风险。可以从以下几种方式提升登录方式的安全性:提升密码强度、避免混用凭 证、定期轮转密码、设置多因素验证。 9 阿里云卓越架构白皮书 程序身份则代表应用程序或服务,往往是通过阿里云的OpenAPI来访问云上的资源和数据。程序身份的管理有以下最佳实践: 不使用云账号AccessKey云账号AccessKey等同于阿里云账号的Root权限,一旦 泄漏风险极大。对于程序访问的场景,请使用RAM用户 的AccessKey来进行阿里云APl的调用。 避免共用AccessKey多种身份共用AccessKey,容易导致权限扩大,同时, 一处泄漏会导致所有应用都受到影响,风险散口扩大。 因此,不同应用、不同环境都需要避免共用AccesS- Key。 定期轮转AccessKeyAccessKey创建和使用时间越长,泄漏的风险越高。通过定期替换旧AccessKey的方式实现轮转。在阿里云上,可以通过阿里云密钥管理服务KMS(KeyMan-agementService)的凭据管家功能,实现自动化的定 期AccessKey轮转。 使用临时凭据代替固定凭据通过给RAM用户或云账号的Root身份创建AccessKey 供程序调用,都属于固定凭据类型。在阿里云上,我们 建议尽可能通过角色扮演的方式获取临时凭据STS Token,代替固定AccessKey的使用,降低因固定凭据 存