目录 CATALOG 引言 成书背景01 创作团队名单05 第一章大型赛事云上数字化转型 1.1历史背景07 1.2上云优势09 1.3上云之路10 第二章云上大型赛事保障体系 2.1云上大型赛事业务架构15 2.2云上大型赛事保障目标17 2.3云上大型赛事保障挑战19 2.4云上大型赛事保障方法论21 2.4.1赛前全局梳理21 2.4.2保障目标体系构建24 2.4.3赛时技术风险处置26 第三章压测调优与技术演练 3.1 云上大型赛事压测调优 27 3.1.1压力测试基本概念 27 3.1.2云上大型赛事压力测试方法论 29 3.1.3云上大型赛事系统调优 33 3.1.4北京冬奥压测调优总结 40 3.2 云上大型赛事技术演练 50 3.2.1 技术演练基本概念 50 3.2.2 容灾演练及冬奥实践 50 3.2.3 安全攻防演练及冬奥实践 54 3.2.4 故障演练及冬奥实践 56 第四章监控告警与应急预案 4.1云上大型赛事监控告警59 4.1.1监控告警基本概念59 4.1.2北京冬奥监控告警体系介绍62 4.2云上大型赛事应急预案70 4.2.1应急预案原则70 4.2.2北京冬奥告警预案70 4.2.3北京冬奥技术场景预案75 第五章安全设计与安全防护 5.1云上大型赛事安全设计85 5.1.1安全建设85 5.1.2阿里云安全产品86 5.1.3阿里云安全服务90 5.2云上大型赛事安全防护92 5.2.1安全攻防演练92 5.2.2安全防护体系98 第六章云产品稳定性治理与风险管控 6.1云产品稳定性治理 6.1.1什么是稳定性治理 6.1.2稳定性治理的思想 6.1.3稳定性治理的思考与拓展 103 103 103 105 6.2北京冬奥稳定性治理实践 6.2.1核心系统上云架构--稳定性治理实践 6.2.2智能风险管控工具--AsparaServiceStack-CloudDoc 6.2.3冬奥重保--风险巡检 6.2.4冬奥重保--稳定性专项 6.2.5冬奥重保--赛时每日巡检 6.2.6冬奥重保—变更管控 6.3稳定性巡检总结 107 107 108 110 123 125 127 128 第七章保障阵型与流程管理 7.1云上大型赛事保障阵型 7.1.1基于前中后台的服务分层 7.1.2北京冬奥保障阵型 7.2云上大型赛事流程管理 7.2.1基于业务影响的流程分级 7.2.2北京冬奥应急流转流程 129 129 131 135 135 138 第八章未来展望 引言 成书背景 大型赛事作为表征文明发展程度的重要标志,其与人类社会的的政治、经济、文化、人文、科技等都有着密切关联,一并构成当今世界的丰富多样性。 其中,每四年举办一次的奥林匹克运动会,其历史最为悠久、参与人数最多、比赛规模最大、涉及项目最广、竞技水平最高、影响范围最广、关注程度最高、科技含量最强,是当之无愧的世界最高等级的国际综合体育赛事,其内涵也已经远远超出体育竞技的范畴,从而形成了独一无二的奥运文化现象,成为了全人类的文化盛会和文明遗产。 2022年2月4日,随着耀眼的烟花闪烁在北京国家体育场鸟巢的上空,已筹备和等待了7年的北京冬奥会正式开始了,此时,距2015年北京成功申办本届冬奥会,已过去了2380天,在这漫长的日子里,包括阿里云在内的各条战线的参与者,包括阿里人在内的各行各业的中国人民,通过在各自领域的真诚奉献、默默耕耘、辛勤付出和智慧汗水,保证了这场精彩刺激精彩纷呈的奥运盛会的完整圆满召开,为世界奉献了一场奥林匹克盛宴。正如习总书记在表彰大会上所述:“广大冬奥会、冬残奥会的参与者们,用辛勤付出、坚强毅力、巨大勇气,以强烈的责任感、使命感、荣誉感,出色完成了各项工作任务,创造了无愧于祖国、无愧于人民、无愧于时代的光辉业绩!” 图:北京冬奥会升旗仪式时中台作战室全体同学激动鼓掌 科技的进步,促进着奥运的发展。本届冬奥会在数字基础设施层面实现了两个首次:通过云计算技术向全球转播,实现了奥运史上首次8K视频技术直播开幕式和重大赛事转播1;赛事成绩、组织管理、比赛转播等核心系统100%运行在云上,成为了百年奥运史上第一届全面“上云”的奥运会2。 奥运全面上云的成功实践,让我们不禁思考:未来的大型赛事,应当是什么样子?阿里云作为奥林匹克全球合作伙伴和云服务供应商,有幸参与了三届奥运盛事,更是在2022年的北京冬奥会成为核心系统全量数字基础设施提供商,帮助完成了奥运历史上首次全面彻底的云上数字化转型。这也让我们意识到,大型赛事系统上云已然成为发展趋势,技术的发展和创新之路在不断向前,而作为这条路上披荆斩棘的我们,有必要也有意义将这些宝贵的实践经验整理成册,和众多的技术人一起,交流学习,共促提升。 图:北京冬奥组委给阿里云发来的感谢信 大型赛事系统迁移上云之后,需要实时感知运转情况、发现潜在风险、有效应对突发状况、保证整体业务7*24平稳运转。因此,如何构建一套完整的云上保障体系,就成为了技术保障工作的重中之重。本书基于阿里云双奥重保经验,以北京冬奥会为例,归纳总结云上大型赛事整体保障体系的业务架构,并逐一解构各工作项内容,为后续的云上大型赛事的技术保障提供参考和借鉴作用。 具体来讲,本书分为八个章节。 过去,为满足复杂的业务和技术要求,大型赛事业务系统的基础设施都要部署在成本高昂的专有环境下,如同运动场馆一样,这些专有环境在赛事结束之后即面临着闲置风险。随着云计算技术的发展,云厂商能够提供低成本、高稳定性、高弹性的解决方案,业务设施上云成为了业务系统设计时不可或缺的考虑因素。第一章节主要讨论大型赛事的历史背景、上云好处,以及上云之路,作为大型赛事数字化转型之路的综述。 诸如奥运会这样的云上大型赛事,其内部业务系统非常复杂,赛事管理、综合管理、办公系统等各个子系统彼此之间互相关联,以高稳定性、高安全性运转的同时,还需要在低时延情况下处理高并发压力,从而在赛时做到底层零故障、业务零中断。第二章节以北京冬奥为例,讲述云上大型赛事的业务架构、保障目标及面临的挑战,从而构建一套完善的保障方法论。 第三至第七章则分别从压测调优与技术演练、监控告警与应急预案、安全设计与安全攻防、云产品稳定性治理与风险管控、保障阵型与流程管理等子工作项分别阐述 保障体系的具体内容。 非云原生的系统迁移上云之后,首先需要评估系统整体的性能以及业务稳定性。第三章节主要阐述如何用压测调优和技术演练的方式评估系统性能,及两种方法在北京冬奥保障上的应用。 尽管压测调优和技术演练已经可以帮助我们提升系统性能、排查故障隐患。但是在实际应用中,风险仍然不可避免。第四章节主要讨论如何通过监控告警体系来实现对各系统实时运转情况的感知,以及对风险的及时应对。 不同于常规系统,大型赛事由于其自身的影响力和复杂性极大,故而对系统安全性的要求极高,如何设计全面完善的安全防护能力成为大型赛事系统上云的难点之一。因此,第五章节主要讨论安全设计与安全防护。 由于云上大型赛事使用的系统资源相当丰富、空间跨度非常大,云产品的稳定运转对保障业务稳定性起着至关重要的作用。第六章节会详细阐述云产品的稳定性治理,以及在风险管控方面的实践经验。 面对云上大型赛事盘根错节的业务体系、规模庞大的客户群体,如何构建合理的保障阵型、设计完善的保障流程,对保障团队的专业度和经验值是一个极大的考验。在第七章节,我们将总结数次保障经验,分享基于前中后台的服务保障阵型,以及基于业务影响的风险保障流程。 大型赛事上云,作为一种新兴发展领域,顺应了时代发展,也见证了时代进步。在第八章节,我们展望未来丰富多彩的云上世界,脚踏实地走好技术的发展创新之路。 1OBSMediaGuideOLYMPICWINTERGAMESBEIJING2022 https://www.obs.tv/prx/asset.php?tgt=OBSBeijing2022MediaGuide-February2022v5-38e55096dd38.pdf&gen=12AlibabaCloud,FirstOlympicWinterGamestoHostitsCoreSystemsonAlibabaCloud,February22,2022 https://www.alibabacloud.com/zh/press-room/first-olympic-winter-games-to-host-its-core-systems-on-alibaba-cloud 撰写期间,非常感谢北京冬奥组委技术部给我们提供的帮助,从外部视角提出了十分有效的建议和意见。 创作团队名单 顾问组成员 万谊平潘峥李晓明胡甜张大志曹林 主编团队 王钊赵哲胡海峰陈海清李盈韩冰 第一章大型赛事云上数字化转型 大型赛事,一方面是指体育赛事的规模巨大,另外一方面是指体育赛事对后来的影响具有持续作用3。具体而言,指具有洲际、世界性的各类综合性体育竞技赛事,如奥林匹克运动会、亚洲运动会等,或由世界单项体育组织举办的具有较大影响的单项运动会,如国际足联世界杯、世界篮球锦标赛、世界游泳锦标赛等。 本书所讲述的大型赛事,以奥运会为例。让我们从历史背景开始,介绍奥运会数字基础设施的上云之路。 1.1历史背景 百年奥运基础设施发展史,也是一部人类科技发展史,人类的最新科技,总会第一时间应用在奥运会上。 1964年东京奥运会,卫星转播技术的应用使全世界第一次在电视上实时观看奥运赛事。1976年蒙特利尔奥运会,首次引入大型机进行比赛结果处理与分发,奥运会也由此进入电脑时代,并在之后的数届中逐渐完成了基于现代电脑和现代软件的核心系统基础设施数字化。1996年亚特兰大奥运会,则出现了第一个运行在万维网上的官方奥林匹克网站4。 进入新千年,奥运会的业务系统逐渐完成了从分散部署到基于数据中心的数字化整合过程,并且伴随着整体算力的飞速扩展,呈现出数字时代的鲜明特征。2012年伦敦奥运会,仅奥运会核心供应商源讯(Atos)所管理的业务系统规模就达到了900台服务器、1000台网络和安全设备以及9500台计算机。2016年里约奥运会,其IT数据中心占地多达1272平方米,现场工作人员多达500名5。 过去二十年,这种基于数据中心的模式支撑了所有的奥运业务系统,我们称之为"传统"的数字基础设施。随着时间的发展,传统的数字基础设施开始面临转型需求,并且由于奥运庞大的规模使然,这种需求要比其他赛事更为迫切。 为什么会出现这种转型需求呢?首先,是冗余建设和资源浪费问题。过去为了满足复杂而苛刻的业务和技术要求,不仅使用的资源要富足,并且还需要额外备份整个系统建设。然而这些固定投入在赛时短暂使用之后又要被闲置和拆除。这种数字基础设施的冗余建设,给主办方带来成本负荷之外,也造成资源的极大浪费。其次,是业务灵活性问题。传统机房的数字基础设施,在规划初始即已设定系统承载能力,这就导致当遇到突发算力需求或流量洪峰时,系统没有能力灵活应对,从而造成服务降级。此外,安全问题、绿色环保、资产轻量化等因素,也都促使了奥运这类大型赛事对数字基础设施的转型需求。 因此,作为奥运会的主办方和承办方,国际奥委会IOC(InternationalOlympic Committee)和主办城市奥组委一直以来有着强烈的数字化转型意愿。随着云计算技术的逐渐成熟,云厂商能够提供低成本、高稳定性、高弹性的解决方案,“上云”成为了国际奥委会和主办城市奥组委设计数字基础设施时的一个可选项。 3GetzD.Event:EventManagement;EventMarketing[C].IN:JafariJ.EncyclopediaofTourism.NewYork:Routleledge,2000:209–212. 4BorisSakac,InformationtechnologyattheOlympicGameshttps://www.w