字节跳动云原⽣ ⼤数据发展之路 余炜强 ⽕⼭引擎云原⽣计算架构师 •2015-2022美菜⽹营销数据中台、推荐平台负责⼈ •2022-2023字节云原⽣计算架构师,负责云原⽣⼤数据横向架构 01 字节云原⽣⼤数据背景 02 字节云原⽣⼤数据实践 03 未来发展 01 字节云原⽣⼤数据背景 ⼤规模 ⾼性能 稳定 定制优化 •已有的基础 EB级存储,TBps级实时流量,千万core资源调度 •⾯临的问题 运维负担⼤ 运营能⼒弱 业务接⼊复杂成本压⼒⼤ •技术趋势 实时化智能化存算分离云原⽣化安全合规产品⼀体化 云原⽣⼤数据构建思路 规模化=>实时化垂直化=>整合化中⼼化=>分离化 平台化=>智能化敏捷构建=>标准增强 •⼤规模实时计算 • ⼤规模存储能⼒ •极致实时优化 •实时处理 • 实时分析 •实时⽣效 •统⼀云原⽣存储体系 • 统⼀容器调度体系 •⼀站式⼤数据平台 •流批⼀体化 • 离在线⼀体化 •软硬件⼀体化 •多模数据体系 •混合云能⼒ • 多云资源管理能⼒ •统⼀的基础架构 •轻量化 • ⾼内聚低耦合 •⼤数据+⼈⼯智能 • 可分析 •可预测 •可优化 • 智能优化 •智能运维 •成本优化 • 安全合规 •数据治理体系 •Serverless化 • 解决⽅案 02 字节云原⽣⼤数据实践 多云资源纳管 ⽀持多种存储介质和存储底座。纳管不同环境的存储资源。例如:ssd,硬盘,远程磁盘,对象存储…… Serverless模式 ⽀持多租户的资源隔离和权限隔离 ⼤数据存储 ⼤数据⾼性能实时读写 ⽀持实时横向伸缩,应对实时突发过载。低延迟读写,端到端读延迟<30ms,写延迟<100ms. 低存储成本 分级存储,⾃动将冷数据⽤底层本存储介质进⾏存储。 ⼤数据存储 •可以纳管EB级别数据 •热点⽆法快速扩容 •状态重、重启慢、迁移难 •故障恢复时间⻓ •• 快速横向扩容 ⽆状态、重启快、迁移易 对中间件做专⻔优化 感知数据和机房依赖 •• 全局资源优化 •跨机房负载不均• 成本低资源利⽤率⾼ •整理资源利⽤低• ⼤数据存储-CloudFS •元数据单集群读写:⽔平扩容 •顺序写:接近存储介质性能存储 •顺序读:有缓存900MB/s,引擎 ⽆缓存接近存储介质性能 •单集群inode数量:10billion100billion •Block映射数量:>=300billion •多级存储⾃动优化存储成本数据 •兼容HCFS底座 多云⾼可⽤容灾 ⽀持多云容灾调度,为⼤数据作业提供有效的容灾⽀持。秒级容灾恢 复,保证⼤数据作业稳定运⾏。 多租户资源隔离 ⽀持多租户的资源隔离 运⾏时服务 离在线⼀体 离线在线资源调度⼀体化。共享资源,降低流量潮汐带来的资源浪费。运维、管控⾯服务统⼀,降低维护成本。 资源弹性 快速应对⼤流量过载,提⾼离在线 资源转化效率,为重⼤活动场景提供坚实的技术⽀撑 云原⽣进程解决的问题和痛点 •可以做到资源跨机房弹性 •⼈⼯管理数据、应⽤、⽹络依赖,复杂且困难 •弹性受到应⽤依赖和机房容量上限制约 •资源碎⽚多整体利⽤率低 统⼀资源湖⽅案 •统⼀的资源管理,运维和管理成本低 •离在线⼀体化调度,平滑迁移传统⼤数据应⽤ •可以跨机房、跨集群、跨群快速转化资源 •全链路资源优化,资源利⽤率⾼ 运⾏时服务 ⼀站式⼤数据平台 ⽀持开发、调试、运维、调度,Olap数据治理等⼀站式⼤数据服务。 ⼤数据计算引擎 统⼀元数据服务 ⽀持湖仓⼀体、流批⼀体化、⼤数据AI⼀体化,多数据源管理的统⼀元数据服务。 多租户资源共享 资源共享带来更低成本。⽆状态多租户共享的离线开发和交互式开发平台。多租户共享底层计算存储资源 开源增强特性 为开发、运维、快速故障恢复、弹性扩缩、资源管理等提供企业级增量能⼒。 •产品体系简单 •学习成本低 •数据/⼯具互通 • 统⼀数据治理 •运维管理简单 •产品运营简单 •产品体系复杂 •学习成本⾼ •互联互通难 •数据治理难度⼤ •运维管理复杂 •产品运营复杂 ⼤数据计算引擎 ⼤数据计算引擎 即时弹性 实时计算、在线应⽤都⽀持弹性扩缩。消息引擎也需要⽀持即时弹性扩缩才能得到更好的资源利⽤。 秒级容灾恢复 作为实时计算和在线应⽤的基础中间件,应当⽀持秒级容灾恢复,减少故障恢复带来的业务损失。 云消息引擎 ⾼性能⼤规模读写 ⽀持TB级别⼤规模数据读写,PB级数据存储。 兼容开源+流批⼀体 兼容Kafka协议,⽀持⼤数据量存储,同时⽀持流式读取和批式读取 存算分离架构-对⽐Kafka 重启时间 运维复杂度 扩容对⽐ •Kafka:5~10分钟 •ByteMQ:15秒 •Kafka:⼈⼯恢复broker •Kafka:数据容量管理 •ByteMQ:⾃动秒级容灾恢复 •ByteMQ:近乎⽆限数据容量 •Kafka:2~7天 •ByteMq:1分钟以内 云消息引擎 云消息引擎 ⼤规模存储⽀持 ⽀持PB级别数据存储,单集群⽀持 百万分⽚,引⼊写⼊均衡技术。分钟级数据恢复。⾼性能⾼压缩算 法。 ⾼性能⼤吞吐 ⽀持从hive/hdfs外部构建,低资 源占⽤10倍写⼊速度。⽀持物理复制。⽀持模糊查询、向量化查询, ⾼性能点查,语义增强。 云搜索 稳定性增强 ⽀持熔断限流,⽀持丰富熔断策略和query级别熔断覆盖⼤部分异常场景。 企业级运维⽀持 ⽀持全链路监控,⽀持存储计算资源运维、集群运维。Query诊断和管理。 使⽤场景: 全⽂检索的⽇志场景搜索场景 分析场景 主要痛点: a)⾼吞吐量环境下的写⼊瓶颈 b)读写资源争⽤导致查询缓慢 c)⼤数据量下的资源利⽤和成本 OpenSearch集群规模 海量实时数据写⼊ 700+集群 9000+节点 单集群最⼤700+节点 2PB数据 截⾄:2023年02⽉ 主要痛点: a)⾼吞吐量环境下的写⼊瓶颈 b)读写资源争⽤导致查询缓慢 c)⼤数据量下的资源利⽤和成本 1.海量实时索引的外部构建,MiniBatchLoader⼤规模应⽤ 低CPU消耗单节点3wQPS低CPU消耗单节点增加10倍+QPS写⼊ 2.单集群百万分⽚性能优化,全链路观测保障查询实时可视化 元数据更新吞吐低且内存压⼒⼤性能优化,读写隔离,诊断慢Query 3.服务云原⽣化:基于K8s打造Serverless的OpenSearch 频繁扩容,重复构建索引资源浪费写⼊资源外置,资源可以弹性管理 未来1-2年,字节内部系统将计划全部从Elasticsearch迁移到OpenSearch 云搜索 ZSTD压缩,读写性能不变,降低存储成本 降低 30% 写⼊ 定向路由,对Append-only 50% 类型索引优化 物理复制VS 原⽣Document复制 功能: 读写性能优化 30% 默认ZSTD 压缩压缩 30% 写吞吐提升30% 集群CPU 负载下降30% 复制情况的写吞吐提升50% 针对字节内部海量数据场景,通过压 缩、资源调度、模型优化等,解决整个 开源软件多层聚合场景下,序列化开销⼤的问题 查询 X √ 协调节点单Query级别熔断(内存) X √ 查询使⽤索引⽐纯匹配(不⾛索引)的查询开销更⼤的问题; 数据处理链路中的性能瓶颈点。 价值: 解决开源软件在实际使⽤过程的问题,并进⾏特殊的优化和增强,提升资源利 开源GroupByAgg 软件增强 开源特性 软件增强 原⽣ Terms开销 Byte_Terms 开销 ⽤率,降低使⽤成本。 य़හഝկਂؙCloudFS ّHDFSԎ TOS᭐กے᭛ ᬪᦇᓒᖨਂے᭛ ԯܻኞᦇᓒ–ᓕቘഴګ GIMS Quota๐ۓ GRO GPMS ᑄಁᓕቘ๐ۓ ᬩᤈᓕቘ GAS GWS ኞாෆݳ๐ۓ Ի՞᮱ᗟ๐ۓ Gateway ᗑى๐ۓ ԯܻኞᦇᓒ–ᦇᓒක ၞୗᦇᓒFlinkᇇ Serverlessقಓᓕ MLP-Spark Serverlessقಓᓕ ԯܻኞၾ௳ක BMQ ԯᔱ๐ۓ OpenSearch ԯܻኞᦇᓒ-ᬩᖌଘݣ ᕟկ๐ۓኞޮ๗ᓕቘ HelmChartᓕቘ ෭ப̵ਭᦇ ፊഴಸᦄ ᅒ̵ṛݢአ لํԯ-VKE/VCIႰݳԯ–veStackභഠ/قਮಁਧګ۸K8s ⼤数据平台现存痛点 •⼤数据架构复杂,使⽤成本⾼; •传统⼤数据部署⽅式资源使⽤效率低,运维不够便捷; •实时场景多,传统的数据开发不能满⾜实时要求。 云原⽣计算价值点 •⼀站式⼤数据管理平台,⽀持实时和离线计算,便捷的运维开发; •基于云原⽣技术部署,⾼效的资源管理和调度,提升资源利⽤率; •字节跳动深度优化的实时计算链路,提供消息队列—>实时计算—>实时 服务的全链路场景。 03 未来规划 •流数仓 字节云原⽣⼤数据未来 •软硬件结合(RDMA、NVM) •Serverless演进 •更好的弹性 •更低的成本 技术交流请扫码!