您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[StarRocks 2024 年度技术峰会]:1 Lakehouse Is All You Need - 张友东_镜舟科技 - 发现报告
当前位置:首页/行业研究/报告详情/

1 Lakehouse Is All You Need - 张友东_镜舟科技

AI智能总结
查看更多
1 Lakehouse Is All You Need - 张友东_镜舟科技

STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED LgkehouselsAiYouNeed 张友东 StarRocksTSCMember、镜舟科技cTO STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED 01社区发展概览 02关键技术演进 03LakehouseIsAllYouNeed 04如何构建Lakehouse? STARROCKSSUMMITASIA2024 社区发展概览 01 LAKEHOUSEISALLYOUNEED STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEEDStarRocks社区持续高速发展 GithubStarContributorOverTimeStarHistory 202220232024202520222023202420253years6years10years StarRocks开源3年,Githubstar9300+,Contributor400+,同类型开源项目里增长最快 STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEEDStarRocks在各行业标杆落地 互联网新经济、新智造 Tencent腾讯2阿黑巴巴 小红书 Vanguard* 华润万家 JDL京东物流中信银行S 平安银行 日贝壳口滴滴oppovivo 宁波银行 南京银行 中愿银行 O爱奇艺芒果tv理想米OIN Midea G广发证券 申方宏源证券 四招商证券 Top50互联网公司,超过一半 在生产环境使用StarRocks Top零售、物流、制造企业 在生产环境使用StarRocks Top银行、证券、基金企业 在生产环境使用StarRocks (D)EXPRESS STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEEDStarRocks在国际舞台上展露头角 1.Pinterest面向广告商的实时洞察工具Partner1.Shopee的核心数据分析产品DataGo、Data1.Demandbase面向用户的数据分析平台,从使 Service等,从使用Presto升级到StarRocks。用Clickhouse升级到StarRocks。 Insights,从使用Druid升级到StarRocks。 2.DataGo、DataService直接查询Hive实现3-102.计算节点资源下降60%(147->45),存储资源下 2.P99延时降低50%,资源成本降低68%,实现倍的性能提升。降90%(无需加工成大宽表)。 了6倍的性价比提升。 STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEEDStarRocks繁荣的商业化生态 镜舟 腾讯云 领羊FanRuaninspur浪潮GAloudata DEEPEXI X数势科技,滴普科技袋鼠云 [(-] 阿里云 StarRocks火山引擎 G HUAWEI移动云 StarRocksInside STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED头部企业深度参与社区建设 数据库厂商镜舟 CBO向量化引擎主键模型Pipeline引擎 存算分离数据湖分析物化视图半结构化数据处理 公共云厂商[-]阿里云腾讯云 火山引擎 数据湖分析物化视图行列混存主键模型 社区用户 Ten腾cent讯口滴滴得物?芒果tv celonisSShopee 文本检索向量检索全局字典 K8SOpeator STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEEDStarRocks快速迭代,持续保持创新 1.X极速查询2.X融合统一3.X湖仓一体 CBOBitmap性能优化Pipeline引擎Unifiedcatalog存算分离RBACFlatJSON 数据湖分析 向量化引擎大宽表性能优化Querycache数据湖分析物化视图文本检索 RuntimefilterOpensource 主键模型物化视图 Trino兼容 Cenernted 向量检素 导入性能优化资源隔离算子落盘行列混存 STARROCKSSUMMITASIA2024 关键技术演进 02 LAKEHOUSEISALLYOUNEED STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED存算分离能力全面提升 功能增强 ·基于对象存储的Primarykey实现,存算分离架构下支持列存实时更新 ElasticCluster(Shared-data) ·同步/异步物化视图、Generatedcolumn等核心功能对齐存算一体FEFEFE CatalogManagerCatalogManagerCatalogManager ·热数据查询与存算一体性能表现一致 性能提升·SLRUCache提升命中率、根据业务主动CACHESELECT预热缓存 ·冷查询性能优化,标准测试集开箱冷查性能是存算一体的1/3 CoordinatorCoordinatorCoordinator CNCNCN ExecutionEngineExecutionEngineExecutionEngine CacheDataCacheDataCacheData ·100+社区用户使用存算分离架构降本增效;单集群最大规模超过100节点 用户实践·腾讯音乐采用StarRocks存算分离替换Clickhouse、Druid,资源成本降低50% ·得物APP采用StarRocks存算分离替换Clickhouse,资源成本降低40% S3/HDFS STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED实时数据分析更加高效 实时分析的挑战 ·实时并发写入产生大量小事务版本,小数据文件write1TransactionTransactionTransaction ·FE事务管理压力大,BE数据Compaction开销大 优化效果 write1writeM+1write ·持续优化Compaction策略,典型实时写入场景10下降40%-70% ·Mergecommit将并发的事务合并提交,减少事务数量,小文件数量 ·某业界领先的网络设备厂商,300张表×300写事务/秒,稳定支撑 writeM writeM+1 writeMwriteN writeNSegmentFileSegmentFileSegmentFile 1,4:35 STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED半结构化数据分析加速 FlatJSON ·兼顾半结构化数据的灵活性与查询性能 ·JSON类型导入时,自动检测Schema并按列展平存储 ·查询时优化器自动改写到展平存储的列 加速效果 a:value-of-a, b:value-of-b, c:value-of-c, ·SSB-100g,对比原➓数据,RAWJSON,FlatJSON三种模式abC ·相比直接RAWJSON存储,性能提升数十倍,接近原➓数据性能 a:value-of-a, 对比项 导入 查询 原➓数据 RAWJSON 270s 2120s 6.5s2296s b:value-of-b, c:value-of-c, FlatJSON372s 21s 原➓JSON数据导入数据库时自动展平存储 STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED向量检索简化RAG应用构建 向量检索 ·RAG采用向量数据库优化大模型体验 ·腾讯大数据基于内部业务孵化,支持IVF-PQ,HNSW索引Pre-trained ·VectorDBBench性能评测是其他通用数据库2-10倍 应用实践 ·腾讯混元文生图场景,多组件组合方案升级到StarRocks ·Top1w全链路检索15s降低到2s,资源成本降低70% Userquery LLM Relevant context Response Serial_latency_p99(lessisbetter) StarRocks76.1ms 145.7ms 153.7ms 730.7ms StarRocksDomain EmbeddingsEmbeddings (VectorDatabas.knowledgebase STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED物化视图透明查询加速,简化建模 物化视图管理 ·支持在Hive、Iceberg、Paimon等数据湖上创建物化视图ADS ·支持多级表达式分区,将湖上的分区数据一一映射到物化视 图,并具备独立的生命周期管理(TTL)策略 物化视图查询加速固定BI报表 查询自动改写 ·Aggregation、Join、Union查询改写 DWS 物化视图分层建模OLAP多维分析 ·基于视图的查询改写,简化业务指标构建DWD ·基于文本的查询改写,支持极复杂的SQL加速 ·支持物化视图查询透明改写到Union基表+物化视图, 简化利用物化视图做分层建模 外表物化视图Adhoc自助分析 ODS(Hive/Hudi/lceberg..) STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED完善的数据湖分析生态 DataLake查询写入缓存加速物化视图加速 StarRocks ClientApplication ApacheHive FE-LeaderFE-FollowerFE-Observer QueryOptimizerQueryOptimizerQueryOptimizer ApachelcebergCoordinatorCoordinatorCoordinator ApacheHudi进行中BEBE ExecutionEngine ExecutionEngine ExecutionEngine Deltalake 进行中 进行中 1oEngine loEngine 1oEngine ApachePaimon进行中 DataLake 完善的数据湖分析生态 查询性能业界领先,以Iceberg为例 HiveOIceberg①Hudi①Paimon?Deltalake HDFS/OSS/S3 ·支持主流开放数据湖的查询、写入·相比TrinoonIceberg快3-6倍ParquetORCcsv ·支持Cache、MV等技术加速查询·相比PhotononDeltalake快2倍 STARROCKSSUMMITASIA2024 LakehouseIsAllYouNeed 03 LAKEHOUSEISALLYOUNEED STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED下一个三年,StarRocks如何'赢'? 开放社区Lakehouse ·各行业的用户实践+·MPP架构·存算分离架构 ·活跃的商业化生态·基于代价的优化器·极速数据湖查询 ·广泛的开发者参与·向量化执行引擎湖上物化视图 ·全球化的开源社区·主键模型实时更新 .... STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYOUNEED数据分析架构演进与挑战 Reports 核心优势核心优势 Datalake 数据质量事务处理统 Singlesourceoftruth 低成本、可扩展 DataWarehouse 查询性能数据治理 开放Openformat 不同应用灵活访问 ETL问题与挑战 1.数据类型多样化 2.成本与扩展性 3.高级数据分析(AI) 问题与挑战 1.数据分析性能 2.访问控制与数据治理 StructuredData STARROCKSLAKEHOUSE SUMMITASIA2024ISALLYO

你可能感兴趣

hot

1 镜舟科技&阿里云-StarRocks云原生湖仓分析技术揭秘

电子设备
StarRocks 2024 年度技术峰会2024-12-17
hot

4 镜舟科技-从数据洞察到业务突破的创新之路

电子设备
StarRocks 2024 年度技术峰会2024-12-17
hot

6 镜舟科技-基于镜舟数据库打造场景化解决方案矩阵

电子设备
StarRocks 2024 年度技术峰会2024-12-17