更快、更高、更强 存算分离最新进展 丁凯 StarRocksTSCmember,镜舟科技云原生团队负责人 01StarRocks存算分离 02存算分离-用户 03存算分离-性能 04存算分离-成本 05存算分离-生态 01StarRocks存算分离 ApplicationCacheAppKV-App…StarRocks API ShardManager StarOS StarletStarletStarlet WorkerGroups Service StarletStarletStarlet WorkerGroups ServiceManagerWorkerManager StarletStarletStarlet StarletStarletStarlet FileStoreManager LogStoreManager Provision Resource AWS/GCP/WAZ···PrivateCloud StarRocksonStarOS 快速迭代 3.13.23.3 StarRocksStarRocksStarRocks PK支持 PK索引持久化StorageVolume FastSchemaEvolution 自增列支持 StarCacheBatchPublish 并行Scan 热数据TTL CloudPKIndex 02用户 腾讯音乐存算分离迁移时间线 选定StarRocks存算分离作为湖仓一体底座 Druid集群数据迁移方案验证成功 正式切换查询服务,服务器成本下降40% 完成ClickHouse、Druid替换 实时集群数据接入验证完成 日接入数据千亿条 实时集群回放线上查询流量,查询性能稳定 Druid迁移70%、原有集群释放50% 开启湖仓一体建设基于Multi-warehouse构建资源隔离,将StarRocks建设成为平台标准组件 SepOctNovDecJan Feb MarAprMayJunJulAug 京东物流存算分离集群 FE StatefulSet StarRocksK8sOperator CNStatefulSet HPA Client FE Pod1 FE Pod2 FE Pod3 CN Pod1 CN Pod2 CN Pod3 CN Pod4 SRProxyFEServiceCNService 依托京东云JDOSK8s部署,双可用区容灾,Proxy灵活切量 配备万兆网卡及SSD的物理机,保证网络和缓存I/O性能 预调优的FE/CNSpecs,开箱即可用 03性能 FastSchemaEvolution FastSchemaEvolution技术,加减列等常见schema变更时无需重写数据, 实现了秒级DDL(3.3+) Tablet并行Scan 并行Scan技术,通过将大块数据切分并行加载等技术 显著降低查询延迟,在cachemiss场景,效果更加显著(3.3+) BatchPublish BatchPublish技术,可将众多并发事务合并Publish,显著提升高频高并发导入吞吐,存算分离架构下实现10s数据新鲜度(3.2+) MergeCommit:1s实时导入 FlinkPipeline Partition0 KafkaSource0 Forward Transform0(decompress/deserialization) Forward StarRocksSink0 StarRocks •并发高:Transform需要高并发满足CPU消耗 Kafka Partition1 KafkaSource1 …… Partition298 KafkaSource298 Partition299 KafkaSource299 Forward Forward Forward Transform1(decompress/deserialization) …… Transform298(decompress/deserialization) Transform299(decompress/deserialization) Forward Forward Forward StarRocksSink1 …… StarRocksSink298 StarRocksSink299 StreamLoad Table0 …… Table99 •一个Pipeline有多个表并且数量动态变化,无法对单表进行调优 •秒级实时,从上游消费到StarRocks数据可见保证秒级 MergeCommit:1s实时导入 •300表,300并发,1s写入频率 •总流量92Kevents/s,event10KB+ •表的流量分布符合二八法则 MergeCommit:1s实时导入 04成本 价格模型 TCO=Cost(Compute)+Cost(Storage)+Cost(API) Cost(Compute):按需配置,随时弹性 Cost(Storage):存储空间0放大 Cost(API):对象存储的隐性成本≈N(tablet)*C*3 存储空间明明白白 垃圾回收一目了然 API调用一降再降 05生态 一键式迁移工具 2.diffsourcemetaandtargetmeta 4.submitdata 3.create 1.get meta StarRocksDataMigrationTool replicationjob db、table、partition targetmeta 1.Getsource 6.task FEFE 5.begintransaction10.committransaction 6.task 9.ok 7.makesnapshot 9.ok BEBE 8.replicatedatafile 9.ok 6.task 7.makesnapshot BEBE 8.replicatedatafile 7.makesnapshot BEBE 8.replicatedatafile SourceStarRocksClusterTargetStarRocksCluster 一键式迁移工具 ObjectStorage NativeSparkConnector index data meta log … NativeSparkConnector NativeSparkConnector 01简化链路 02资源隔离 03实时写入 数据加工查询一站式,无需多次搬迁 ETL与数仓资源彻底隔离,互不影响 ETL也拥有数据实时更新能力,秒级可见 关注公众号 T感hanky谢ou! 观看!