您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[StarRocks 2024 年度技术峰会]:6 vivo湖仓架构的性能提升之旅 - 发现报告
当前位置:首页/行业研究/报告详情/

6 vivo湖仓架构的性能提升之旅

6 vivo湖仓架构的性能提升之旅

STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED Vivo湖仓架构的性能 提升之旅 郭小龙Ai vivo互联网大数据专家 StarRocks STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED 滋子 01vivo大数据多维分析场景面临的挑战 02StarRocks服务建设落地的技术解决方案 03引入StarRocks的效果和收益 04StarRocks在vivo大数据平台的未来规划 Ai ViVo大数据多维分 01析场景面临的挑战 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED Vivo大数据多维分析场景面临的挑战 •湖仓加速能力强 •标准SQL,兼容MySQL协议 •支持实时更新和邮除 •,Join能方强,默认CBO优化规则 •,多级缓仔 •智韭物化视圈,内表加速 •·资源隔离全,支持CGroupCPU源阿离 •易运维,扩缩容自动处理 StarRocks StarRocks II:ClickHouse 聚焦OLAP研发人方 StarRocks为土,ClickHouse为辅 即即席席分分析析 soark presto. presto •vivo大数据研发治理平台最活跃模坛之 •查询耗时长,彩响用户体验和工作效率 •语法兼容弱 •多级缓存弱 •CBO能力弱 •无物化视图,内衰加速 敏敏捷捷BBII presto..: •无物坦阴离 •兰点故障 •社区活跃度低 •性能提升方案少 •查询耗时偏高,优化难 •用户板退认证缺失 IClickHouse •计算资源缺乏管控 •湖仓引翠支诗弱 研研效效工工具具平平台台 内i •湖仓加速能力弱,数据导入增加存诸成云 •Join能力弱,cbo,reorder和runtime filter •实时更新和出除弱 •SQL兼容度一般 •扩缩容国难,无法rebalance MySQL •查沟性能慢,内存计算经常00M •数据清洗加工时延高,需要数据分层 •实时据更新和删除流程长 •计算泛辑复杂 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED StarRocks服务建设 02落地的技术解决方案 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED vivo大数据平台架构图 vivo大数据平台整体架构图 应用层即席分析BI报表湖仓一体应用系统基础建设服务平台 查询层SparkPresto/StarRocksClickHouseDruid 数据开发 任务调度 数据加工层高线-Spark实时-Flink 数据管理 资源/资 ClickHouse 数据存储层HivePaimonStarRocksDruidHbase产管理 数据介质层HDFS对象存储 文件系统文件系统 HDDSSD 数据采集 数婚服务 资治理 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 湖仓查询加速架构 Apache oro ORC性能优化第1次大规模查询ORC实 性能接近Parquel优化性能 HIVE DataCache性能优化 nvme.ssd,使用率95% ,引入缓存异步写入 TEXT •dfs.client.socket-timeout:60s->2s Hdts保节点性能优化。2s极少失败增加超时时间重试 优化工作 ,周期性刷所只刷新db和table继存 元数据缓存性能优化范压查找和精确找为空不绣存 。get_partitions_by_names多线程查间 Apache orc Presto语法兼穿100% 语法莱兼容·Spark语法喜85% Paimon客户端版本 升级到0.9.0引入CachingCatalog STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 内表&异步物化视图工作 业业务务场场景景 •高性能多表Join查询 •,实时摄入数据,要求延迟率低 •经常更新和删除数据,实时感知数据更新 •物化视图进行数据多层ETL清洗和加工 •,湖仓表和内表进行联邦查询 研研发发工工作作 •3.2.5升级到3.3.5,解决库锁死锁问题,解决只能单事实表刷新问题 •·解决某些物化改写的问题 •·引导用户物化视图必须分区刷新 •,降低物化视图刷新频率 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED StarRocks组件建设 基基础础能能力力建建设设 稳稳定定性性建建设设 运运营营指指标标建建设设 版版本本管管理理认认证证鉴鉴权权 守守护护进进程程 启启停停监监控控 平平台台化化 日日报报周周报报月月报报 功功能能限限制制兼兼容容方方案案 ccrarshash 自自动动恢恢复复 监监控控告告警警 审审计计日日志志 价价值值收收集集 故据写入敦教在记故据读取 5park-DriverSR-FE HHivivee表表加密加字密段字段 (java) Hivet HDFSORC必文件 (java) 数数据据读读取取管理 写加密效据 SparkExrutorjava) ApacheORC序 Hive表SR-BE(C++) ApacheORC (java) HDF5ORC丰IC害文件 (C-+本) STARROCKSSMMTASIA2024LAKEHOUSEISALLYOUNEED 弓l入StarRocks的 03效果和收益 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 即席分析切换历程 (202404)StarRock版本制作扣开始质度阶段 基于杜区32.5版本别作 StarRocks切换Presto时间轴 承容久数路白Pres.o功能上线 CRC格动Hive表的功能和性随问随解决 心R汇辉密功能上载 StarRocks当前占比40%以内 HDFS慢节点分折和辉决 成本联单方案体地 SpEr自定变用敏容 重放SQL仅速测试微力建设陪果一致性问题决 查的性能问题率法 至在路出适辆优化,路出更多地产沟到R HMS元证途存综合方案比 即帝分析折双患测试节点 Presto兼套性到了97% BE内在缩期间题分行和解决 (202401)切换专项成立 (202406-202707)灰度100%阶段 认证和整极方案上线 切模价高讨论和确训 目标讨的和说认 即离治析热容斗anRocks语法检测上线 Spark营用显数范容性可随能决 运高指标(目技。周损和月报方紊胞地 专项计划讨的和用以 灰度5% Presto正式下统 (202402~202403)性能攻关阶段(202405)灰度50%阶段查间超时失购可随分标和解炎 (202408~至今5tarRocks占比80% STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 即席分析引/入starRocks收益 •占比70%的情况下,P50展现出了令人瞩目的技术突破,其响应速度得到了革命性的提升,从7月份 的63.77秒锐减至22.30秒,效率提升了65.06%,提升了3倍 •预计占比80%,P50耗时会有4~5倍的性能提升 •StarRocks相比于Presto,查询成功率更加稳定,查询成功率接近98% 即席分析P50(月度指标) 即害分析宣询时长分区占 1010-30s50-E0s1-5m5-10n=10+n p60,81 1009% a54 100.00 60% 82.91 B0.0074.89 76.6. 7.J7 22.17 85.11 4t% 20% 59.37 E3.77 2023-122524-012324-2220246S2024-042:24·052024-062024072(24·082154-092024-102024-11 50.00 即常分析10移内查淘占比席分析30内查淘占比 13.59t. 60.00 2.3 40.3(4; 30.06§ :00r(9 50.00% 0.09% 20.00 20.0§ 30.00%20.00%10.00% 2024-012024-022024-032024-042024-052024-(62024-072024-082024-092024-102024-12±23-12232-M2024-062374-502024-120174-42074-262024-212324-1 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 敏捷BI引l入starRocks收益 •截止当前总体替换Presto进展25%,月查询成功数25w以上,查询成功率稳定在99%以上 •:覆盖12个业务空间,600+个用户,助力>30s慢查询占比由2.99%下降至1.32% •P90值小于5s,相比prestoP9016s,提升了75%,提升了4倍 月查询成功数(单位:次)月查询成功率(单位:%) lanxinghualanxinghua 35.0075102.00% 30.007599.00% 25.007596.00% 2024-11 20.007) 93.00% larxinqhua99.00% 15.0075 90.00% 87.00% 10.00,7 5.0075 84.00% 81.00% 2024-062024-092024-102024-1160-+20260+2022024-10202411 月查询耗时TP95(单位:ms)ECYE月查询耗时TP90(单位:ms)ECYC lanxinghualanxinghus 50,00030,000 40,000 25,000 20,000 30,000 20,000 2024-11 15,000 2024-11 =lanxinghua:6,92210,000lanxinghua:S86'E 10,000 0 2024-082024-09 2024-102024-11 5,000 0 2024-082024-092024-102024-11 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED 研发工具平台引l入StarRocks收益 收收益益 •实现准实时,业务库数据变更至数据可见约3min内 •基干物化视图实现数据分层与加工逻辑,开发效率提升约听 效自能同察项目报表项目概览 工作台程览 Flink&StarRocks双剑合,实现准实 时度量 需求 任务 DADADADIM基于FlinkSQLMySQLcdc MATERIALIZEDVIEW-- connector实时采集mysqlbinglog 主键模型,支持upsert,增量数据实 DMDMDMDIM时写入 基于物化视图,多表Join,实现分层 工时StarRocks ---.MATERIALIZEDVIEW建模 DWDWDWDIMFlinkSQL流表Join维表,实现分区 动态字段补齐,实现分区级物化视图刷新 -MATERIALIZEDVIEW-StarRocks查询加速,P95400ms Flink-CDCODSODSODS MySQL StarRocks STARROCKSSMMTASIA2024LAKEHOUSEISALLYOUNEED StarRocks在vivo大数 04据平台的未来规划 STARROCKSSUMMITASIA2024LAKEHOUSEISALLYOUNEED Presto集群切换规划 敏敏捷捷BBI规I规划划 当当前前进进展展 第一阶段 第二阶段 第三阶段 完成30%✁敏捷B数据量迁移 完成80%✁数据量迁移到SR, 完成100%✁数据量迁移到 到SR,解决敏捷BI痛点慢查 具备较为完善✁运营治理能力 SR,具备成熟✁运营能力 询,具备初步较为运营治理能力及加速能力

你可能感兴趣

hot

2 小红书湖仓架构的跃迁之路

文化传媒
StarRocks 2024 年度技术峰会2024-12-17
hot

湖仓存储系统设计剖析和性能优化

交通运输
DataFunSummit2023:数据湖架构峰会2023-07-12
hot

Iceberg实时湖仓数据分析性能优化

交通运输
DataFunSummit2023:数据湖架构峰会2023-07-12