您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国信通院]:安全生产治理核心要素:管理、运营案例解读 - 发现报告
当前位置:首页/行业研究/报告详情/

安全生产治理核心要素:管理、运营案例解读

安全生产治理核心要素:管理、运营案例解读

安全生产治理核心要素:管理、运营 实践案例解读 杨德华 数列科技联合创始人、解决方案负责人 杨德华 数列科技联合创始人/资深解决方案架构师 超过10年的超大流量复杂系统的高可用架构、性能优化实践 信通院数字政府建设赋能计划技术专家成员 历经2009年-2016年电商平台双十一大促技术保障 2017年至今:数列科技,为众多知名企业合作建设系统安全生产体系,包 括中国人寿、中国移动、国家电网、顺丰、中通、SHEIN等 愿景:帮助企业高效建设安全生产体系,有效提升系统稳定性,保障企业业务发展和用户体验 快递物流运营商相关其他行业Takin开源社区用户 2021年6月30日开源 https://github.com/shulieTech/Takin 目录:今天要分享什么内容? 1.背景 数字化时代特点、微服务架构优劣点、系统不可用对企业的影响 2.安全生产两个实践案例的效果对比 3.安全生产治理概念和要素理解 4.安全生产总体治理框架、参考框架、落地步骤 1.1数字化时代特点:快 •市场剧烈变化 •7x24小时的服务 •更短的产品生命周期 •更多的定制化服务 •产品发布周期(TTM) 更短 •VUCA 2015 2019 3C数码 每年上新1次 每年上新2次以上 美妆 每半年-1年上新 每月上一款旗舰新品 个护 18-24个月 9个月 家用电器 2-3年发布一款新品 每年两次新品迭代 服装服饰 每季度或每半年 每周-每个月都有新款 天猫新品发布频率 上新周期 品牌 周期上新总数 每日上新每季上新每周上新2次 SHEIN 周49196件 Zaful 周431件 H&M 秋季1687件 Zara 年12000件 新产品、新业务玩法的创新速度成为企业增长的动力而云原生、微服务架构的引入,有助于提升企业创新速度 优点 缺点 1.2分布式、云原生架构的优缺点 研发 测试 产品 设计 运营 Pizzateam 敏捷型产品团队:方便加人、分工 系统复杂链路长,一个按钮横跨了50个团队 碎片化发版,快速响应需求 故障排查,涉及角色多, 上下游协同效率不高 1.3系统一分钟不可用,对企业的影响估算 Gartner:Downtimecancostsmallbusinesses$423perminute,whereaslargeorganizationscanloseover$9,000perminute. 企业 损失 影响 天猫2012年双十一超卖 数十亿元 研发、测试、运维团队数百人排查问题;对商家的影响; 某物流上市公司2017年双十一,OMS崩溃2小时 数亿元 订单进不来,造成人员闲置,资源浪费 目录:今天要分享什么内容? 1.背景 数字化时代特点、微服务架构优劣点、系统不可用对企业的影响 2.安全生产两个实践案例的效果对比 3.安全生产治理概念和要素理解 4.安全生产总体治理框架、参考框架、落地步骤 稳定性演练方式 2.1案例一:顺丰+Takin2021双十一生产环境全链路压测效果 生产环境,同时发起40万QPS (流量引擎4c6g的700+个pod) 问题分类 统计 Java应用 171 MySQL 26 Redis 16 ES 10 Flink 10 TiDB 6 优化分类 统计 程序优化 180 配置优化 110 资源扩缩 84 问题总计 374 双十一前提前发现问题价值总结 生产环境核心系统 _330_个服务、6400个agent运行 8、9、10月持续3个月压测,大规模压测次数达20次 业务连续性保障双十一0故障 374个具体问题驱动,高效组织、沟通、执行、反馈机制 容量可信,平稳支撑 2.5倍揽收件量,2.2 倍派件量 四步保障 2.2顺丰快递+Takin:生产环境全链路压测 Step1: 全链路全流量线上压测 Step2: 根据压力表现 进行调优 Step3:分流与限流 Step4:容灾降级完善监控 10 对比项 顺丰 B 差距 组织管理运营方式 自上而下,高层负责 性能部门推动 IT人员数量 3500 1500 同时压测系统 56 3 18.6倍 同时被压服务数 330 5 66倍 线上Agent个数(千) 6.4 0.3 21.3倍 同时发起的压测流量(万) 40 0.2 200倍 双十一前发现的问题数 374 5 74.8倍 大规模压测次数 30 3 10倍 2.3顺丰、B企业生产环境全链路压测效果对比 AB 对比情况 400 350 300 250 200 150 100 50 0 同样的生产环境全链路压测产品(Takin)同样的实施团队-数列科技 2.4顺丰、B企业的管理、组织方式对比 案例之顺丰,技术高管负责案例之B企业,性能部门负责 目录:今天要分享什么内容? 1.背景 数字化时代特点、微服务架构优劣点、系统不可用对企业的影响 2.安全生产两个实践案例的效果对比 3.安全生产治理概念和要素理解 4.安全生产总体治理框架、参考框架、落地步骤 3.1数字化业务安全生产治理概念内涵理解 发展数字经济,必须把数字化业务安全生产、保障业务连续性放在突出位置。 需着力解决安全生产领域的突出问题,有效提升安全生产治理能力 广义:全社会 安全生产治理是国家有关部门、行业组织、科研机构、 企业、个人共同参与和实施的一系列活动集合。 完善相关政策法规 推动政策法规落地 建设研发培养与实并应专业施标用关人才准体键技系术 在组织安全生产战略的指导下,为确保系统处于稳定性运行的状态,多个部门协作实施的一系列活动集合。 狭义:单个组织内部 在组织安全生产战略的指导下,为确保系统处于稳定 性运行的状态,多个部门协作实施的一系列活动集合。 建立组织安全生产治理团队 制定相关制度规范标准 构建建设培养安全安全相关生产生产人员技术人才安全 体系梯队生产能力 3.2云原生、微服务架构数字化系统的安全生产难题 用户视角 研发视角 技术高管视角 85%的故障靠用户反馈或者投诉 1.做一次发布,很容易出问题,运维给了很多检查项,要看很多监控。 2.排查问题的数据分散、缺失,获 取数据验证的成本高 1.如何高效保障数字化系统平稳运行? 运维部门视角 客服、业务部门视角 异常定位的效率特别低,协同的人 员多,时间长 1.业务服务于用户和客户,但是保障体系服务于应用和组件 2.接受的告警数量很多,准确率很低 3.告警配置的覆盖率很低 4.发布频次提升,告警配置的维护成本很高 5.APM产品采用率不高,对应用性能影响10%以上,数据存储成本高 阶段 问题案例 设计阶段 单点故障;负载不均;事后监控;不可回滚;不可降级;缺乏隔离;滥用日志策略;缺乏自我保护;缓存设计不当;容量评估不准;耦合过重;滥用同步;非幂等;对失败考虑不充分;数据库索引不合理;数据库表结构设计不合理;误用数据库limit查询;小表随意执行truncatetable;一次性批量delete数据 编码阶段 集合排序异常;程序流程控制异常;高并发下的单例对象异常;高并发下的ThreadLocal异常;异常捕获处理出错;高并发下的HashMap异常;参数检查不严谨;不合理的参数配置;版本依赖问题;字符防乱码;不限制集合的大小; 测试阶段 测试链路不完全;测试引发性能问题;测试引发数据污染;未进行测试基线; 发布阶段 无灰度流程;错误灰度方案;未经测试上线;无回滚方案;回滚方案未验证;未评估影响范围; 变更域 变更没有记录;变更不可管控;变更数据没有格式化;版本不一致;业务高峰期进行数据库变更; 监控报警域 监控误报;指标采集不标准;基础设施产品未关注业务可用性;监控失效;监控配置不合理;关键报警无人处理;缺乏分维度大盘;变更不关注业务监控; 应急阶段 故障发现时间过长;故障相关人员协同时间过长;故障定位慢;恢复久。 重大活动 传统的容量评估方式难以评估线上复杂微服务的真实容量。容量评估不准、仿真压测不真实、限流不起作用、预案未经有效检验。 3.4复杂数字化系统各阶段面临的实际异常 设计编码测试发布变更监控应急重保 单点故障;负载不均;事后监控;不可回滚;不可降级;缺乏隔离;滥用日志策略;缺乏自我保护;缓存设计不当;容量评估不准;耦合过重;滥用同步;非幂等;对失败考虑不充分;数据库索引不合理;数据库表结构设计不合理;误用数据库limit查询;小表随意执行truncatetable; 一次性批量delete数据 设计编码测试发布变更监控应急重保 集合排序异常;程序流程控制异常;高并发下的单例对象异常;高并发下的ThreadLocal异常;异常捕获处理出错;高并发下的HashMap异常;参数检查不严谨;不合理的参数配置;版本依赖问题;字符防乱码;不限制集合的大小; 设计编码 测试发布 变更监控应急重保 测试链路不完全;测试引发性能问题;测试引发数据污染;未进行测试基线; 设计 编码 测试 重保 发布 变更监控应急 无灰度流程;错误滚方案;回滚方 灰度方案;未经测试上线;无回案未验证;未评估影响范围; 设计编码测试发布变更监控应急重保 变更没有记录;变更不可管控;变更数据没有格式化;版本不一致;业务高峰期进行数据库变更; 设计编码测试发布变更监控应急重保 故障发现-通告时长:超过5分钟完成。 从接收到异常信息,经过降噪-收敛-判断-通告发送-[故障处理子流程]等步骤,若这部分工作全部由监控人员人肉完成,以监控报警来源的异常为例,P1P2故障,从监控报警-降噪-收敛-判断-通告发送,至少要在5分钟内完成; 监控误报;指标采集不标准;基础设施产品未关注业务可用性;监控失效;监控配置不合理;关键报警无人处理;缺乏分维度大盘;变更不关注业务监控; 设计编码测试发布变更监控应急重保 分类 总结 描述 故障相关人员上线时长 超过5分钟完成 当业务出现故障,从故障通告到相关人员上线处理的时间消耗。微服务架构下,依赖关系复杂,有可能是下游一个操作,影响了上上游的正常请求。大部分企业的人员上线,依赖临时拉群。主要靠人肉。拉通相关人员进群,至少需要5分钟。 故障定位时长 超过30分钟 涉及人员多。从故障发出通告,相关的人进来,弄清楚故障上下文,排查引发问题的原因等都需要消耗时间。主要靠人肉 故障处理时长 超过40分钟 定位到故障原因后,主要靠人肉。 设计编码测试发布变更监控应急重保 传统的容量评估方式难以评估线上复杂微服务的真实容量。 能力 网络配置优化系统及混合云间延迟 网络&运维 BGP接入 系统间依赖影响 网络带宽负载均衡问题 CDN层面问题DNS问题 应用防火墙问题 开发&部署 线性扩容问题 最大连接数限制 基础设置瓶颈 容量预估问题 中间件瓶颈 三方插件问题 配置优化环境问题 业务性能配比 开发&测调 接口调优 内存泄漏 慢SQLGC问题 安全瓶颈 慢接口 DB线程数 测试环境预发(仿真)环境生产环境 目录:今天要分享什么内容? 1.背景 数字化时代特点、微服务架构优劣点、系统不可用对企业的影响 2.安全生产两个实践案例的效果对比 3.安全生产治理概念和要素理解 4.安全生产总体治理框架、参考框架、落地步骤 4.1安全生产(稳定性保障和提升)总体视图 数字化系统安全生产治理目标(如0-N-1-5-10) 降低重大故障数量 提前发现风险 快速发现故障 快速定位故障 快速解决故障 1.规划 2.建设 制度流程体系建设 组织架构体系建设 满足业务发展风险管理成本与效率并重安全生产治理步骤 方案规划 方案论证 现状分析 现状风险分析 行业实践对比 组织架构制度流程技术工具人员能力 可行性安全性可持续性 技术工具 体系建设 安全运营体系建设 安全生产能力建设参考框架 3.验收 风险防范 风险预防 策略制定风险评估风险整改 演练验收性能压测流量防护预案保鲜多活建设 应急处理 应急处置复盘