行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

1 Lakehouse Is All You Need - 张友东_镜舟科技

电子设备 2024-12-17 StarRocks 2024 年度技术峰会胡诗郁

StarRocks Lakehouse Summit Asia 2024 总结

社区发展概览

GitHub 星标：StarRocks 开源 3 年，GitHub 星标 9300+，贡献者 400+，增长迅速。
企业客户：Top 50 互联网公司中超过一半，零售、物流、制造企业中的顶级公司在生产环境中使用 StarRocks。
国际影响力：Pinterest、Shopee、Demandbase 等国际知名企业采用 StarRocks。

关键技术演进

存算分离：提升存算分离架构下的性能，包括列存实时更新、物化视图、生成列等功能。
实时数据分析：优化 Compaction 策略，提升实时并发写入效率，减少事务和小文件数量。
半结构化数据处理：支持 Flat JSON 格式，提升查询性能数十倍。
向量检索：通过向量数据库优化大模型体验，提高检索速度和资源利用率。
物化视图：支持在 Hive、Iceberg、Paimon 上创建物化视图，简化建模和查询加速。

Lakehouse 是未来

数据湖与数据仓库结合：提供统一的数据存储，支持多样化的业务负载，服务企业 AI 和 BI 数据应用。
架构优势：基于代价优化器、向量化执行引擎、存算分离架构，支持多种数据格式。
生态支持：开放社区、活跃的商业化生态、广泛的开发者参与。

如何构建 Lakehouse

存储层：使用对象存储作为统一存储底座。
元数据层：开放的数据存储格式如 Spark、Flink、StarRocks。
计算引擎：StarRocks 是最适合 OLAP 分析的引擎。
架构设计：分层架构，支持实时和离线数据处理，减少 ETL 成本，提升数据新鲜度和查询性能。

总结

StarRocks 在开源、企业应用、国际影响力和技术演进方面表现出色，已成为湖仓一体架构的重要组成部分，为企业提供了高效、灵活的数据管理和分析解决方案。

张友东StarRocks TSC Member、镜舟科技cTO 社区发展概览关键技术演进 Lakehouse Is All You Need 如何构建 Lakehouse? STARROCKS SUMMIT ASIA2024 社区发展概览 01 StarRocks社区持续高速发展 StarRocks 开源3年，Github star9300+，Contributor 400+，同类型开源项目里增长最快 StarRocks 在各行业标杆落地 StarRocks在国际舞台上展露头角 1.Demandbase面向用户的数据分析平台，从使用 Clickhouse 升级到 StarRocks 。 1. Shopee 的核心数据分析产品 Data Go、DataService 等，从使用 Presto 升级到 StarRocks 。 1.Pinterest 面向广告商的实时洞察工具 PartnerInsights，从使用 Druid 升级到 StarRocks 。2.P99延时降低50%，资源成本降低68%，实现了6倍的性价比提升。 2.计算节点资源下降60%（147->45),存储资源下降90%（无需加工成大宽表）。 2. Data Go、Data Service 直接查询 Hive 实现 3-10倍的性能提升。 StarRocks繁荣的商业化生态头部企业深度参与社区建设 StarRocks快速迭代，持续保持创新 STARROCKS SUMMITASIA2024 关键技术演进 02 存算分离能力全面提升 ·基于对象存储的 Primary key 实现，存算分离架构下支持列存实时更新·同步/异步物化视图、Generated column 等核心功能对齐存算一体功能增强 ·热数据查询与存算一体性能表现一致·SLRU Cache 提升命中率、根据业务主动 CACHE SELECT 预热缓存·冷查询性能优化，标准测试集开箱冷查性能是存算一体的1/3 性能提升 ·100+社区用户使用存算分离架构降本增效；单集群最大规模超过100节点·腾讯音乐采用 StarRocks 存算分离替换 Clickhouse、Druid，资源成本降低 50%·得物APP采用 StarRocks 存算分离替换 Clickhouse，资源成本降低 40% 用户实践实时数据分析更加高效实时分析的挑战 ·实时并发写入产生大量小事务版本，小数据文件·FE 事务管理压力大，BE数据Compaction 开销大优化效果 ·持续优化Compaction策略，典型实时写入场景10下降40%-70%·Merge commit 将并发的事务合并提交，减少事务数量，小文件数量·某业界领先的网络设备厂商，300张表×300写事务/秒，稳定支撑半结构化数据分析加速 Flat JSON ·兼顾半结构化数据的灵活性与查询性能·JSON类型导入时，自动检测 Schema 并按列展平存储·查询时优化器自动改写到展平存储的列加速效果 ·SSB-100g，对比原始数据，RAWJSON，Flat JSON三种模式·相比直接 RAWJSON 存储，性能提升数十倍，接近原始数据性能向量检索简化RAG应用构建向量检索 ·RAG采用向量数据库优化大模型体验·腾讯大数据基于内部业务孵化，支持 IVF-PQ，HNSW索引·VectorDBBench 性能评测是其他通用数据库 2-10 倍应用实践 ·腾讯混元文生图场景，多组件组合方案升级到 StarRocks·Top 1w全链路检索15s降低到2s，资源成本降低 70% 物化视图透明查询加速，简化建模物化视图管理 ·支持在 Hive、Iceberg、Paimon 等数据湖上创建物化视图·支持多级表达式分区，将湖上的分区数据一一映射到物化视图，并具备独立的生命周期管理（TTL)策略查询自动改写 ·Aggregation、Join、Union 查询改写·基于视图的查询改写，简化业务指标构建·基于文本的查询改写，支持极复杂的SQL加速·支持物化视图查询透明改写到 Union 基表＋物化视图，简化利用物化视图做分层建模完善的数据湖分析生态查询性能业界领先，以Iceberg 为例完善的数据湖分析生态 ·支持主流开放数据湖的查询、写入·支持Cache、MV 等技术加速查询 ·相比 Trino on Iceberg 快 3-6 倍·相比 Photon on Delta lake 快2 倍 STARROCKS SUMMIT ASIA2024 03 下一个三年，StarRocks如何'赢'？开放社区 ·各行业的用户实践·活跃的商业化生态·广泛的开发者参与·全球化的开源社区数据分析架构演进与挑战 Single source of truth统低成本、可扩展Open format开放不同应用灵活访问问题与挑战问题与挑战 1.数据类型多样化2.成本与扩展性3.高级数据分析（AI) 1.数据分析性能2.访问控制与数据治理数据湖、数据仓库分层组合架构湖、仓分层组合 1.各种类型的数据入湖统一存储2.湖上数据导入数据仓库支持BI3.湖上数据同时支持AI 应用场景问题与挑战 1.复杂的 ETL 链路，同步延时影响时效性2.两份数据口径不一致、几余的存储成本3. Data Warehouse 私有格式无法高效支持 A 数据分析向Lakehouse 方向演进，LakehouseIsthe NewS3 Lakehouse: One Data, All Analytics Lakehouse 是什么? 1.兼具数据湖、数据仓库的优势2.是一种新的架构范式，不是简单的湖、仓组合业务价值 One data, all analytics1.开放统一的数据存储，Single source of truth2.基于一份数据，支持多样化的Workload，服务企业 AI、BI 的数据应用 STARROCKS SUMMIT ASIA2024 如何构建Lakehouse? 04 如何构建Lakehouse? STORAGE 1. Object Storage 作为统一存储底座2.开放的数据存储格式 CATALOG 1.数据以Catalog 形式向上层提供2.统一的数据访问控制、数据治理 POLARIS UNITY ENGINES 1.计算引擎解决各个场景的需求2.StarRocks 是最适合Bl数据分析的引擎基于 StarRocks 构建 Lakehouse Lakehouse 获得数据仓库的查询性能直接查询关键技术 1. Metadata cache2. CBO、Distributed plan3. 1O Coalesce、Data cache4. Pipeiline、Vectorization 物化视图查询加速 · Partitioning、Bucketing: Colacate join: Data indexes StarRocks x Iceberg 构建 Lakehouse 离线/近实时场景实时场景 1.无需维护额外的 ETL pipeline，存储成本下降 50%2. StarRocks 查询 Iceberg 比 Clickhouse 内表延时更低,查询性能提升3倍，P90延时降到10s量级微信小红书 ·数据实时写入到 StarRocks，异步降冷到Iceberg·数据新鲜度在秒级别，整体存储成本降低65% ，数据统一写入到 Iceberg，使用 StarRocks 直接分析时效性从天/小时提升到10分钟，查询延时亚秒级别 StarRocks x Paimon 构建 Lakehouse 阿里巴巴实时湖仓演进从 Lamda 到 Streaming Lakehouse 流批一体 Data freshness、Resource cost、Query performance 优势兼得 Lakehouse Is All You Need 数据工程师无需维护复杂 ETL Pipeline 数据分析师实时高效的在数据湖上进行探索分析数据科学家直接访问数据湖上的开放数据，构建AI应用企业经营/管理者简单高效的数据分析驱动企业经营决策 StarRocks will power your lakehouse ! 感谢每一位用户、开发者，共同见证Lakehouse 的发展浪潮

点击免费查看完整报告

1 Lakehouse Is All You Need - 张友东_镜舟科技

StarRocks Lakehouse Summit Asia 2024 总结

社区发展概览

关键技术演进

Lakehouse 是未来

如何构建 Lakehouse

总结

你可能感兴趣

Everything you need to know about what Amazon is doing in financial services

1 镜舟科技&阿里云-StarRocks云原生湖仓分析技术揭秘

6 镜舟科技-基于镜舟数据库打造场景化解决方案矩阵

4 镜舟科技-从数据洞察到业务突破的创新之路

凯尔达大涨点评从工业机器人向人形方向迈进1参股镜识科技25

张忆东-科技新浪潮，港股中特估

友车科技更新1）汽车销售系统：一是受益车厂销售模式变化，不管是经

东威科技2025年业绩预告简评1预计25年归母净利润为12