云原⽣⼤数据平台架构演进 ——弹性、融合、开放 顺丰科技蔡适择 CONTENTS ⼀.背景&趋势 ⼆.顺丰⼤数据平台架构升级 三.顺丰⼤数据架构在内外部的应⽤实践四.后续规划 1背景&趋势 顺丰简介-集团业务概览 顺丰是中国第⼀⼤、全球第四⼤快递物流综合服务商,为客户提供国内及国际端到端⼀站式供应链服务。同时,依托领先的科技研发能⼒,致⼒于构建数字化供应链⽣态,成为全球智慧供应链的领导者。 供应链综合物流 同城即时配送 仓配⼀体 快递 医药 快运 冷链 国际 增值服务 快递物流 更多... 丰泰产业园 顺丰数科 丰巢顺丰房托 其他业务 国内城市覆盖率99.4% 335个 国内县级覆盖率99.4% 2,813个 跨境电商包裹业务覆盖 208个 国际快递及供应链业务覆盖 98个 2022年度年营业收⼊ 2,675亿 员⼯数量 162,823⼈ 地级市(含直辖市) 县区级城市 国家及地区 国家及地区 ⽴⾜中国服务全球 数据截⽌时间:2022年12⽉31⽇ 顺丰⼤数据平台应⽤简图 数据运营 智能调度 ⼤数据分析 ⼤数据平台 智慧物流 智能⻛控 AI⼈⼯智能 智能调拨 区块链 IoT万物互联 智慧供应链 分仓预测 ⼤数据平台发展趋势——数据基础设施 •湖仓⼀体价值逐渐被认可 •存算分离、云原⽣成为现代基础设施标准 •流批⼀体诉求越来越⾼ ⼤数据平台发展趋势——数据管理成熟度曲线 2⼤数据平台架构升级 超融合 计算存储分离 计算能⼒ 计算能⼒ 存储<——>计算 MPP ●25G⽹络 ●列存储 ●压缩 定义⼀款通⽤机型 分析类 报表类 计算密集 存储密集 存储能⼒ 存储能⼒ HDD/SSD 3D-Opt CPUGPUFPGA Disk CPU Disk CPU 原有架构痛点1——存算⼀体 ⼤数据集群的部署基本都将存储与计算融合在⼀起,导致: 1.⽆法进⾏存储或计算的定向伸缩,造成资源浪费 2.发⽣机器负载时会带来⼤量的数据复制,影响稳定性 ⼤数据服务的部署受限于本地IDC的事前规划,⾯对⾼峰往往需要提前预测及备⾜服务器,机器采购、搬迁、上架、环境安装等均需要耗费⼤量的精⼒与时间,资源的弹性伸缩能 ⼒严重不⾜,造成资源浪费。 原有架构痛点2——数据孤岛 湖仓分离 技术组件独⽴ 多云数据中⼼ •数据时效性不⾜ 以天级为主,⼩时级为辅 •数据⼀致性不⾜ 湖中的更新不⼀定覆盖到仓 •半结构化数据⽀持弱 半结构化数据难以被分析应⽤到 •跨源联邦分析难以满⾜ •数据冗余 •数据⼀致性不⾜ •跨云数据融合分析难以满⾜ •不⼀致的⽤户体验,使⽤成本⾼ •元数据独⽴,找数难 •数据跨境安全保障低 Clickhouse 业务系统 BDP 业务系统 BDP ⽤户数据 业务数据 ⽤户数据 业务数据 新加坡可⽤区 (GCP) 顺丰可⽤区 (顺丰云) 原有架构痛点3——⽣产容灾分离 计算资源池 SparkSlot FlinkSlot MRSlot PrestoSlot ... ⽣产环境 DISTCP 计算资源池 空闲Slot空闲Slot 空闲Slot空闲Slot 容灾环境 容灾⽽⾮双活 ⽣产、容灾数据⾮实时⼀致,任务⽆法做到⽆感切换 资源浪费 容灾计算资源闲置浪费 数据⼀致性差 容灾和⽣产数据⽆法保障实时⼀致,维护成本⾼ 存储-HDFS 存储-HDFS 融合计算层 实时数仓 CDC深度整合多模索引优化 统⼀SQL 跨源联邦查询计算下推加速 湖仓⼀体 统⼀Catalog类型⾃动推断 深度定制Hudi表格式&元数据管理 深度定制SQL解析器&CodeGen Static&DynamicPruning 弹性资源层 Shared-nothingCache RemoteShuffleService 资源弹性伸缩策略管理 对象存储/HDFS存储/混合存储 弹性资源调度(ECS/k8s) ⾏业云(⾦融、政务) 公有云(AWS、GCP、Azure、阿⾥云、腾讯云、华为 云) 本地私有云 弹性融合⼤数据平台整体架构 数据应⽤平台 丰景台 数据服务 数据⻔户 数据洞察层 ⼀站式数据⼯场 数据管理平台 数据市场隐私计算数据安全 数据中⼼ 权限 认证 加解密 脱敏 ⽔印 合规 审计 KMS 数据集成 IDE 任务调度 数据直通⻋ 数据建模 数据质量 数据⾎缘 主动元数据 数据权限管理 产品整体上分为四部分,包括弹性资源层、融合计算层、数据洞察层和安全中⼼。产品⽬标是为客户提供极致弹性、⽆感、安全、简单易⽤的云上数据服务 核⼼能⼒1——资源弹性伸缩 Cache-pod Cache-pod Cache-pod spark-driver-pod spark-driver-pod spark-driver-pod 专线 spark-executor-pod spark-executor-pod 专线 spark-executor-pod 计算 K8S-CCE K8S-CCE K8S-CCE 公有云计算资源池 统⼀元数据服务 Catalog适配器 HiveFlinkSpark Cache-pod 顺丰云计算资源池 ⽼机房计算资源池 新机房计算资源池 K8S-CCE spark-executor-pod 专线 spark-driver-pod 统⼀SQLJDBCServer 认证SQL解析鉴权 资源管理 Session 管理 查询优化 CBO 引擎管理 下推 RBO ⼤数据资源控制中⼼ 资源精准调度模块 本地IDC部署API 顺丰云 EC2API 公有云 EC2API 存储 新机房HDFS 对象存储S3 旧机房HDFS 统⼀数据语⾔,便利引擎升级 构建精细化缓存,精准调度计算资源,打破机房限制 缓存精细化、智能化 ■数据透明缓存,缓存的读写对⽤户透明,使⽤没有 ⻔槛 ■缓存⽣命周期管理,缓存数据⽣命周期基于LRU进 ⾏⾃动化管理,⽆⽤缓存及时淘汰 ■缓存精细化,列、块级别缓存,相⽐于⽂件块缓存更加节省空间,能够原来1%的内存空间存储原来10倍以上的有⽤数据 资源精准调度、智能调度 ■资源按需弹性伸缩,将顺丰云、本地IDC和公有云资源纳⼊计算池,业务⾼峰时将任务弹性⾄公有云,⾼峰过后及时释放,能有效降低业务⾼峰的应对成本 ■算⼦智能调度,能够⾃动识别缓存所在位置,算⼦运⾏的时候⾃动调度到该位置,有效提⾼缓存的命中率 ■任务智能调度,任务可以根据数据所在机房进⾏灵 活调度,避免跨机房⽹络带来的性能损耗 加密传输 数据⾃适应分布,实现跨机房融合 存储跨机房融合 ■数据多机房⾃动分布,数据副本异步实时⾃动分布到不同机房,保障数据实时⼀致 ■存储架构融合,HDFS和OSS实现架构融合,⽤户可以实现透明平滑的上下云及弹性伸缩 ■数据透明加密,数据传输链路全透明加密,数据安全可控 统⼀元数据服务 逻辑数仓 组织 RESTInterface ThriftInterface 元数据管理 … 业务元数据 多数据 源 My SQL Star Rocks Elastic Search Kafka Hive Hudi… Database Catalog 统⼀元数据管理 Table 核⼼能⼒2——逻辑数据仓库 数据 孤岛 交互 问题 数据 安全 ➢不同数据源使⽤不同的SQL⽅⾔,导致开发⼈员需要学习和使⽤不同的SQL⽅⾔或API,增加开发和维护的难度。 ➢分散在不同数据源中的数据,⽆法进⾏跨数据源的关联分析,难以快速挖掘数据价值。 数据分散在不同数据源中,缺少统⼀元数据管理,导致数据不能⾃由流动和共享,形成了相互孤⽴的数据“孤岛” 跨不同数据库系统的数据访问需要在多处重复设置权限,缺少统⼀安全管控,⽆法有效保证数据安全。 统⼀元数据 统⼀语⾔ ⽤户痛点 逻辑数仓解决⽅案 统⼀安全 ConnectorManager JDBCConnector ESConnector KafkaConnector HMSConnector Table Scan Table Scan 统⼀SQL服务(统⼀语⾔) 接⼝层 统⼀SQL语⾔ 查询优化引擎 启发式优化器&⽕⼭模型优化器 Logical Project Logical Project LogicalLogical FilterJoin LogicalLogical FilterFilter TableTable ScanScan 物理计划 逻辑计划 语义校验 语法解析 代码⽣成 统⼀权限控制 LogicalJoin 统⼀元数据管理 统⼀认证 负载均衡 JDBC接⼝ 统⼀安全管理服务 认证操作 审计⽇志 统⼀审计 元数据操作⽂件操作 审计⽇志审计⽇志 ⽂件操作 审计⽇志 监控与告警服务 统⼀鉴权 统⼀权限数据存储 ⾏级权限管理 字段级权限管理 库表权限管理 鉴权代理 统⼀认证 组织管理 ⻆⾊管理 ⽤户管理 认证服务 核⼼能⼒3——多云融合与管理 DataOpsPlatform DataManagementPlatform DataServiceManagementPlatform IDE (Query/Programing/DevOps) DataIntegrationManagementPlatform TaskSchedulingPlatform(Realtime&Offline) ScriptCenter UnifiedCatalog DataCompliance 数据安全区2(欧盟) Catalog-5 Catalog-4 数据安全区1(⼤中华) Catalog-3 Catalog-2 Catalog-1 X CloudConnect CloudConnect CloudConnectCloudConnect PrivateCloud PublicCloud1 PublicCloud2 PublicClould3 gRe BDPComputin DataCache ComputeNode 多云 计算ComputeNode DataCache 资源管理 sourcePool ComputeNodeX DataCache ComputeNode DataCache BDPComputingResourcePool DataCache ComputeNode DataCache ComputeNode ComputeNode DataCache OSSStorage OSSStorage OSSStorage OSSStorage HDFSStorage X 多云存储资源管理 数据安全区1(⼤中华)数据安全区2(欧盟) 3案例分享 某国际物流集团多云⼤数据案例 解决跨国多云⼤数据安全合规和统⼀管理问题,统⼀⼊⼝、⼀致体验、统⼀运维 数据市场 欧洲数据分析师 主动元数据 业务系统云原⽣数据湖 ⽤户数据业务数据 欧洲可⽤区(AWS) 跨境运单 财务数据 总部数据分析师 数据分析平台 (丰景台) 隐私数据 统⼀⼤数据平台 数据开发套件 (丰⾈) 业务系统云原⽣数据湖 ⽤户数据业务数据 新加坡可⽤区(华为云) 跨境运单 财务数据 隐私数据 运维 北美数据分析师 监控平台 业务系统云原⽣数据湖 ⽤户数据业务数据 北美可⽤区(GCP) 1.海外本地业务: •⾮必要数据不出境,尽量实现本地化,如:欧洲、北美 •在满⾜合规要求的前提下,可将不涉及隐私的数据传输⾄新加坡统⼀管理(法务CaseByCase评估业务场景的合理性、必要性) 数据跨境策略管理平台 •数据合规:包括采集地合规和数据落地国家合规 2.跨境业务: •获取个⼈⽤户授权后,中国跨境业务通过⾹港可⽤区联通,数据的双向流程需满⾜源和 ⽬的国家的法律法规要求 •获取个⼈⽤户授权后,海外跨境业务可出境数据传输⾄新加坡可⽤区 3.应⽤设计基本原则: •个⼈⽤户数据加密 •将个⼈⽤户数据剥离,满⾜隔离性要求