2022数字+大会 云原生中间件平台 助力企业运维体系建设 裴明明 网易数帆云原生资深技术架构师 2022数字+大会 企业中间件运维体系建设 目录 CONTENTS 云原生中间件平台的助力 2022数字+大会 中间件运维体系建设总结 2022数字+大会 2022数字+大会 企业中间件运维体系建设 企业中间件运维体系建设目标2022数字+大会 2022数字+大会 建设统一中间件平台,统一技术底座,并且在标准技术栈上不断演进,持续建设, 保障稳定。 支撑业务接入,建立标准规范,从基础设施侧推动业务优化,赋能业务,提升业务 连续性。 知识沉淀,运营管理,从运维、质量、成本等多维度统计挖掘,数据反哺平台,建 立良性循环。 •数据分析能力不足 •知识沉淀不够 •专家经验不足,没有有效转化创新能力 沉淀创新 •业务接入不规范 •业务故障多 •业务支撑被动 业务支撑 •中间件平台不统一 •技术栈传统 •运维效率低 平台和技术底座建设 2022数字+大会 运维体系建设痛点2022数字+大会 中间件运维体系建设2022数字+大会 2022数字+大会 架构分层 中间件平台的环境管理,将环境分成基础层、中间件层、业务层进行分层管理,为每层制定不同的管理规则和规范。 流程分角色 基于中间件使用、运维流程进行体系建设,为流程中的不同角色、职能制定合理的规范,标准化流程,提升协作效率。 资产类型 按照中间件团队的资产进行体系建设,增强对各项资产的统计度量,制定合理的规章制度提升资产的利用效率,推进资产的增值。 高效中间件运维体系2022数字+大会 业务调研 推动改进 标准规范 制定规范遵守规范 中间件团队 平台建设平台运维 业务接入最佳实践 业务应用 2022数字+大会 赋能业务提升能效 业 平 运 知 务 台 维 识 接 技 规 管 入 术 范 理 规 规 规 范 范 范 数据分析知识总结 中间件平台 平台数据 实践经验创新演进体系闭环 资产沉淀 2022数字+大会 2022数字+大会 云原生中间件平台的助力 网易数帆轻舟中间件平台2022数字+大会 2022数字+大会 云原生技术打造的统一中间件平台,技术领先, 具备弹性,自愈等特性显著提升运维效率。 网易内部孵化的平台,功能完善,具备企业级特性。 平台蕴含网易多年中间件运维经验,经验传承,助力运维体系建设。 云原生技术2022数字+大会 弹性 •中间件有状态集群自动扩容 •中间件有状态集群垂直升级 2022数字+大会 自愈 •中间件集群状态自检 •中间件集群故障自愈 标准化 •基于CRD的集群定义 •监控日志网关等生态标准化 •基于代码的资源编排能力 利用率 •资源池共享和租户级别隔离 •计算资源动态管理 •资源超售提升整体利用率 技术选型统一 运维特性下沉,统一框架 自动化程度高声明式资源定义 技术生态健全 统一技术基座2022数字+大会 2022数字+大会 云原生 技术选型不统一基于脚本,工作复杂 自动化程度低 集群联邦 OperatorPrometheus 资源管理无标准 技术生态不足 企业级中间件平台2022数字+大会 租户管理、资源隔离 可观测体系保障稳定性 2022数字+大会 安全、审计等保障使用安全 自动化运维提升人效 中间件跨机房、跨城市高可用 运维经验沉淀2022数字+大会 轻舟云原生中间件平台 使用经验 运维经验 •最佳实践 •高性能,高可用 2022数字+大会 •高安全 •集群故障自愈 •多维度监控 •稳定性管控 中间件配置模板 Operator故障自愈 稳定性巡检 根因分析 普通用户 运维人员 监控告警 中间件稳定性管控平台2022数字+大会 中间件集群 RedisKafkaZookeeperES RocketMQ … 数据采集 事件关联规则库 稳定性管控平台 评分系统 智能运维 根因分析结果 规则分析引擎 数据处理 配置参数 运行状态 监控数据 2022数字+大会 定期/手动 数据处理 规则评估 巡检报告 巡检建议 系统数据 巡检 规则库 中间件稳定性巡检2022数字+大会 定义巡检任务 巡检执行 巡检报表 运维人员 定期巡检 稳定性定期巡查: •历史监控数据 •实时采集数据 •容量水位信息 •环境信息 •用户配置信息 结果处理 报告解读,报告处理: •快速浏览生产环境健康度 •选择巡检评分不达标的报告进一步分析 •解读报告,对每个异常巡检项进行分析 •结合巡检建议制定环境优化工作计划并执行 •评估本次巡检结果,优化巡检规则库 报告解读 稳定性巡检报告: •容量水位增长过快,近期可能面临容量风险 •服务自身监控难以发现的平台或硬件隐患 •存在显著风险的资源对象,例如冗余缺失的topic •架构风险,例如实例冗余物理资源耦合 •业务使用分析,例如Rediscluster节点水位或负载不均衡 •配置合规风险,例如分布式集群配置不一致 •…… 2022数字+大会 巡检规则库 报告处理 稳定性巡检规则库: •专家经验沉淀 •覆盖系统、集群、业务使用姿势等多维度 •平台沉淀,循环优化 循环优化丰富巡检库 应用运行时关键行为检测,比如GC的平滑性,消息服务消费滞后 系统关键参数巡检,比 如时间源一致性 关键性能指标检测 集群使用合理性评估,比如es当前关闭索引的数量 其他风险 集群原生配置参数风险巡检,比如集群客户端最大链接数太小,集群节点超时时间太短 集群最佳实践配置参数巡检,比如kafka开启自动创建topic,redis内存淘汰策略 关联性配置检测,比如kafka开启ack=all,但是isr最小值为0 配置风险 集群节点数巡检,冗余副本数巡检 主备同步情况巡检 选主配置风险监测 非健康状态节点巡检 集群拓扑合理性巡检 架构风险 针对中间件集群CPU、内存、网络、磁盘等资源使用水位检查 对资源使用水位趋势进 行预警 对集群节点资源均衡度进行检查 JVM等应用资源使用水位巡检 同时评估容量过高过低情况,引导用户合理使用 容量风险 2022数字+大会 多维度中间件环境巡检2022数字+大会 2022数字+大会 中间件稳定性巡检优势2022数字+大会 •超过300条专家经验巡检规则 •包括Redis、Kafka、ES、RocketMQ等中间件运维使用经验 •覆盖环境资源、系统、集群、配置、拓扑等多维度巡检 •定期巡检对环境进行健康度评估 •稳定性主动管控,提前介入,尽量避免紧急事件发生 •巡检建议对环境改进提出专家建议,提升处理效率 •运维经验补充,助力运维规范落地 •巡检库规则包含用户使用最 佳实践,协助建立使用规范 •平台使用流程,协助建立运维工作流程 •循环优化协助知识积累,打造最适用巡检能力 根因分析2022数字+大会 根因分析 根因分析结果 智能运维 监控报警 尝试自愈: •查询具体客户端导致的问题之后尝试通过白名单禁止客户端访问 •持续性资源问题,尝试对集群进行垂直扩容 •大key等问题反馈业务方进行整改 2022数字+大会 规则分析引擎 监控数据 事件关联规则库 关联关系挖掘 根因分析—精准才是硬道理2022数字+大会 专家经验沉淀 分析 网易内部多年运维经验总结,多业务验证有效。 2022数字+大会 事件关联规则库 分析结果 人工对结果确认,基于历史分析对算法进行优化 故障注入平台 模拟中间件集群故障,检查根因分析结果, 对比实际原因和分析结果进行规则优化 模拟业务故障同时,进行行为干扰,提升故障分析抗干扰能力 结合人工智能算法,对事件管理规则进一步提炼 事件关联关系挖掘 FP-Growth算法:遍历次数少,效率高,准确性高 Apriori算法:简单,数据要求低,影响广 随机森林:抗噪能力强,训练速度快 神经网络算法:高效关系图谱提取算法 监控数据 •经验判断,沉淀标准 •立足紧急避险,降低故障损失, 低危操作 •关注高可用机制无法解决的难题 •网易海量运维经验沉淀 •基于历史数据的事件关联关系 挖掘 •基于特定环境的循环优化 •多维度数据采集 •模拟资深运维人员处理流程 •系统和分析引擎代替人工 2022数字+大会 根因分析特点2022数字+大会 多维度分析 丰富规则库 智能自愈 2022数字+大会 2022数字+大会 中间件运维体系建设总结 稳定性巡检 稳定性管控 根因分析 根因报告 巡检报告 关联性挖掘 智能运维 统一云原生技术基座 开放活跃 体系生态 容器技术 助力企业运维体系建设2022数字+大会 2022数字+大会 企业业务 业务推动平台 平台建立规范 规范打磨演进 知识成就创新 创新赋能业务 企业级特性 可运维 高性能 可观测 高可用 多租户 统一管控 规范标准 平台体系规范 企业规范结合最佳实践 知识库 围绕平台沉淀 知识反哺,持续创新 轻舟云原生中间件平台 2022数字+大会 THANKS