新东方DevOps运维门户进阶之路 钟仕骏高级经理 首师大毕业,现就职于新东方教育,曾就职于搜狐、快手。搜狐大厦资深老烟民,曾在搜狗、搜狐视频移动端NO工作过,负责运维及后台数据研发。快手第一位SRE,曾负责快手「所有」运维基础化建设,规划并参与了2020年春晚红包项目。现任新东方教育运维研发高级经理,负责企业基础架构标准化体系研究、自动化平台研发等。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Content 目录 01平台需要解决的问题 02我们是怎么做服务树的 03案例分享 04经验沉淀 01 DevOps平台的建立 初期困境 面临的困境:急需一体化平台集成,解决孤岛效应 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 01 烟囱效应 早期发展过程中,企业按照垂直个性化的逻辑部署IT系统,目独立采购建设,导致内部系统烟囱林立,很难做到数据互联互通。 02 数据孤岛 新业务新市场的拓展过程中各内部系统没法直接复用和迭代,产生的新数据无法与原有的数据互通,加剧了数据孤岛的问题。 03 组织熵增 各个平台功能单一化,平台与平台之间的协调配合、数据交互异常混乱,随着企业核心业务增长,却带来了效率低下的问题。 资源申请 问题1:哪些独立功能需要集成? 信息检索 流程操作 业务上线 成本控制 数据安全 高效稳定 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 申请流程 数据纳管 IDC 私有云 问题2:集成后如何方便地进行资源分摊? 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 资源获取 资源位置 资源类型 项目节点 API同步 公有云 云主机 数据库 ES/Kafka C端 云教室 小课堂 标准化的流程规范和体系化的工具建设是实施DevOps的关键要素 解决办法——服务树 一级-集团 结构顶层,根节点 三级-项目集 同类项目集合 五级-应用 模块、APP组件等 集团业务线项目集项目应用 二级-业务线 各大机构、组织业务 四级-项目 各类研发立项 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 通过服务树关联集成业务功能 集团云化资源 业务线 上线发布 PaaS管理 项目集 项目 数据平台 应用 安全中心 集中授权 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 02 DevOps与数据平台 大数据研发体系的割裂与整合 案例1:实时计算平台大数据实时计算架构 集中式数据库 分布式数据库 全量数据初始化 增量数据分发 实时计算平台 (streaming) Xdata(数据初始化) 业务日志 全量增量 SQL任务 Xstream 全量 JAR任务 报表系统实时大屏数据探索数据服务 StarRocks 实时数仓 (Real-timedatawarehouse) CDC增量采集 业务数据 K8S 埋点日志业务日志 Filebeat采集 ELK 增量 增量 HiveSQL/SparkSQL Hive/Hudi OS YARNHDFS Ambari 系统日志 1、自研实时计算开发平台已经在项目上正式推广使用 2、实现实时数仓交互式分析引擎框架统一标准化建设 大数据基础平台 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 案例1:实时计算平台上下游通过流程串联 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 案例1:实时计算平台需求细化,功能模块拆分 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 实时计算平台初版包括:7个功能模块,14个功能点。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 案例1:实时计算平台集成方案和功能实现 模块分布比例 公共27% 管理员40% 用户33% 管理员用户公共 模块一:数据源管理模块二:队列权限管理 模块三:任务ITEM管理模块四:任务约束表达式管理模块五:FLINK-SQL配置管理模块六:实时计算表单创建模块七:CI配置管理模块八:任务列表 模块九:任务配置列表模块十:任务全盘操作历史 模块十一:SINK操作模块十二:资源统计模块十三:SOURCE树白名单模块十四:宏管理模块十五:监控创建 管理员1、2、3、4、5、13公共8、9、12、15用户6、7、10、11、14 案例1:实时计算平台数据处理能力升级-实时数据研发平台 建立自动化数据研发管理模型,由割裂变集成,通过数据驱动,将业务库表联动服务树,利用报警组机制将风险快速反馈至研发人员,推动研发改进分析模型,提升数据分析效率。 目前上线了16个业务线,130+个分析任务,累积提单5300+ 节省了30%以上的跨平台人工调用、邮件数据传递成本。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 03 DevOps与安全中心 关于DevSecOps的一些CASE 红蓝对抗 钓鱼 提权 边界入侵 敏感资产 识别规则 任务模板 敏感数据检测 APP合规闭环 应用加固 风险评估 安全评分 托福Pro 云教室 东方甄选 地方校、机构客服 生产环境 不容忍、不产生、不传递 安全项目驱动开发-部分项目展示 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 渗透测试 S 越权 安全中心 管 程 CA认证&KMS 传 证 QL注入XSS/CSV垂直 理合规漏洞事件策略流 输加密密钥存储CA认 二级备份 案例2:APP闭环检测系统流程 基于现有的APP安全检测设备的基础上,从管理和技术两个方面,对于集团下属APP进行安全合规管理,从而减低APP的安全风险。 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 案例2:APP闭环检测系统架构 1 目的 为了进一步增强集团及下属分支机构所开发APP的安全合规性,降低相关APP因安全合规风险被外部主监管部门的风险,充分利用集团现有的App安全检测设备,实现应用市场APP下载—>APP安全合规检查—>安全合规问题展示— >APP安全合规问题通报—>APP修复检查的全流程管理。 任务 2统一两款三方系统的交互模式,封装出高质量且具有一致性的后端接口,考虑到三方系统不可控因素过多,需要完善报错信息与检测状态的多样性,防止因外部系统崩溃导致程序不可预估的风险,另因外部系统接口不完善,还要建立人为结果录入的机制。 成果 APP纳管数量:8 APP检测次数:390 当前纳管APP检测平均分:60 线上高危漏洞:12 线上中危漏洞:16 3对于存在的APP高危风险的APP问题,触发问题工单或邮件通知到各应用负责人,帮助其了解自己所负责的APP的风险的同时也变向的支持了公司的安全战略规划。 关键业务数据 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 案例2:APP闭环检测系统DashBoard和详情页 公私密钥对认证 优点:难于拷贝背诵 缺点:仍可传递,且不常变 传统密码认证 优点:认证相对方便简单缺点:易于拷贝传递背诵 CA机构自签认证 优点:需要三方共同认证身份,传递无效缺点:实现较复杂,业内实践少 案例3:CA认证中心 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 案例3:CA认证流程图 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 案例3:CA认证中心实现安全登录 04 经验沉淀 项目开发过程经验总结 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 降本增效的经验:聚焦和成本控制 业务板块聚焦 精简申请流程 上云及容器化 闲置资源回收 超额资源审核 1.分为降本(资金和时间成本)和增效两环节; 2.约整体降本30%,增效40%,加速投产。 技术提效思维 复制牛人经验,提高作战能力 避免重复造轮子 核心模块抽象,高内聚低耦合 实现基础能力可重用 架构微服务化,增加通用接口 利用网关接口路由 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 文档定期沉淀,鼓励知识共享wiki、技术公众号 运维业务研发精进过程 •沟通业务痛点 •了解现有资源 •熟悉运维流程 •构建基本思路 •明确需求方向 •确认优先级 •确认需求难度 •规划实现方针 •方向统一原则 •明确拆分依据 •需求分级拆解 •定义类别属性 •依据优先级 •阶段性产� •管理时间分片 •目标达成率 目标定义需求分析目标拆解阶段实现 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 2023DevOps国际峰会暨BizDevOps企业峰会·北京站 Thanks DevOps时代社区荣誉出品