AI智能总结
张友东StarRocks TSC Member、镜舟科技cTO 社区发展概览 关键技术演进 Lakehouse Is All You Need 如何构建 Lakehouse? STARROCKS SUMMIT ASIA2024 社区发展概览 01 StarRocks社区持续高速发展 StarRocks 开源3年,Github star9300+,Contributor 400+,同类型开源项目里增长最快 StarRocks 在各行业标杆落地 StarRocks在国际舞台上展露头角 1.Demandbase面向用户的数据分析平台,从使用 Clickhouse 升级到 StarRocks 。 1. Shopee 的核心数据分析产品 Data Go、DataService 等,从使用 Presto 升级到 StarRocks 。 1.Pinterest 面向广告商的实时洞察工具 PartnerInsights,从使用 Druid 升级到 StarRocks 。2.P99延时降低50%,资源成本降低68%,实现了6倍的性价比提升。 2.计算节点资源下降60%(147->45),存储资源下降90%(无需加工成大宽表)。 2. Data Go、Data Service 直接查询 Hive 实现 3-10倍的性能提升。 StarRocks繁荣的商业化生态 头部企业深度参与社区建设 StarRocks快速迭代,持续保持创新 STARROCKS SUMMITASIA2024 关键技术演进 02 存算分离能力全面提升 ·基于对象存储的 Primary key 实现,存算分离架构下支持列存实时更新·同步/异步物化视图、Generated column 等核心功能对齐存算一体 功能增强 ·热数据查询与存算一体性能表现一致·SLRU Cache 提升命中率、根据业务主动 CACHE SELECT 预热缓存·冷查询性能优化,标准测试集开箱冷查性能是存算一体的1/3 性能提升 ·100+社区用户使用存算分离架构降本增效;单集群最大规模超过100节点·腾讯音乐采用 StarRocks 存算分离替换 Clickhouse、Druid,资源成本降低 50%·得物APP采用 StarRocks 存算分离替换 Clickhouse,资源成本降低 40% 用户实践 实时数据分析更加高效 实时分析的挑战 ·实时并发写入产生大量小事务版本,小数据文件·FE 事务管理压力大,BE数据Compaction 开销大 优化效果 ·持续优化Compaction策略,典型实时写入场景10下降40%-70%·Merge commit 将并发的事务合并提交,减少事务数量,小文件数量·某业界领先的网络设备厂商,300张表×300写事务/秒,稳定支撑 半结构化数据分析加速 Flat JSON ·兼顾半结构化数据的灵活性与查询性能·JSON类型导入时,自动检测 Schema 并按列展平存储·查询时优化器自动改写到展平存储的列 加速效果 ·SSB-100g,对比原始数据,RAWJSON,Flat JSON三种模式·相比直接 RAWJSON 存储,性能提升数十倍,接近原始数据性能 向量检索简化RAG应用构建 向量检索 ·RAG采用向量数据库优化大模型体验·腾讯大数据基于内部业务孵化,支持 IVF-PQ,HNSW索引·VectorDBBench 性能评测是其他通用数据库 2-10 倍 应用实践 ·腾讯混元文生图场景,多组件组合方案升级到 StarRocks·Top 1w全链路检索15s降低到2s,资源成本降低 70% 物化视图透明查询加速,简化建模 物化视图管理 ·支持在 Hive、Iceberg、Paimon 等数据湖上创建物化视图·支持多级表达式分区,将湖上的分区数据一一映射到物化视图,并具备独立的生命周期管理(TTL)策略 查询自动改写 ·Aggregation、Join、Union 查询改写·基于视图的查询改写,简化业务指标构建·基于文本的查询改写,支持极复杂的SQL加速·支持物化视图查询透明改写到 Union 基表+物化视图,简化利用物化视图做分层建模 完善的数据湖分析生态 查询性能业界领先,以Iceberg 为例 完善的数据湖分析生态 ·支持主流开放数据湖的查询、写入·支持Cache、MV 等技术加速查询 ·相比 Trino on Iceberg 快 3-6 倍·相比 Photon on Delta lake 快2 倍 STARROCKS SUMMIT ASIA2024 03 下一个三年,StarRocks如何'赢'? 开放社区 ·各行业的用户实践·活跃的商业化生态·广泛的开发者参与·全球化的开源社区 数据分析架构演进与挑战 Single source of truth统低成本、可扩展Open format开放不同应用灵活访问 问题与挑战 问题与挑战 1.数据类型多样化2.成本与扩展性3.高级数据分析(AI) 1.数据分析性能2.访问控制与数据治理 数据湖、数据仓库分层组合架构 湖、仓分层组合 1.各种类型的数据入湖统一存储2.湖上数据导入数据仓库支持BI3.湖上数据同时支持AI 应用场景 问题与挑战 1.复杂的 ETL 链路,同步延时影响时效性2.两份数据口径不一致、几余的存储成本3. Data Warehouse 私有格式无法高效支持 A 数据分析向Lakehouse 方向演进,LakehouseIsthe NewS3 Lakehouse: One Data, All Analytics Lakehouse 是什么? 1.兼具数据湖、数据仓库的优势2.是一种新的架构范式,不是简单的湖、仓组合 业务价值 One data, all analytics1.开放统一的数据存储,Single source of truth2.基于一份数据,支持多样化的Workload,服务企业 AI、BI 的数据应用 STARROCKS SUMMIT ASIA2024 如何构建Lakehouse? 04 如何构建Lakehouse? STORAGE 1. Object Storage 作为统一存储底座2.开放的数据存储格式 CATALOG 1.数据以Catalog 形式向上层提供2.统一的数据访问控制、数据治理 POLARIS UNITY ENGINES 1.计算引擎解决各个场景的需求2.StarRocks 是最适合Bl数据分析的引擎 基于 StarRocks 构建 Lakehouse Lakehouse 获得数据仓库的查询性能 直接查询关键技术 1. Metadata cache2. CBO、Distributed plan3. 1O Coalesce、Data cache4. Pipeiline、Vectorization 物化视图查询加速 · Partitioning、Bucketing: Colacate join: Data indexes StarRocks x Iceberg 构建 Lakehouse 离线/近实时场景 实时场景 1.无需维护额外的 ETL pipeline,存储成本下降 50%2. StarRocks 查询 Iceberg 比 Clickhouse 内表延时更低,查询性能提升3倍,P90延时降到10s量级 微信 小红书 ·数据实时写入到 StarRocks,异步降冷到Iceberg·数据新鲜度在秒级别,整体存储成本降低65% ,数据统一写入到 Iceberg,使用 StarRocks 直接分析时效性从天/小时提升到10分钟,查询延时亚秒级别 StarRocks x Paimon 构建 Lakehouse 阿里巴巴实时湖仓演进 从 Lamda 到 Streaming Lakehouse 流批一体 Data freshness、Resource cost、Query performance 优势兼得 Lakehouse Is All You Need 数据工程师 无需维护复杂 ETL Pipeline 数据分析师 实时高效的在数据湖上进行探索分析 数据科学家 直接访问数据湖上的开放数据,构建AI应用 企业经营/管理者 简单高效的数据分析驱动企业经营决策 StarRocks will power your lakehouse ! 感谢每一位用户、开发者,共同见证Lakehouse 的发展浪潮




