构建现代分析应用的实时数据仓库 演讲者:连林江 SelectDB联合创始人兼COO 让数据用起来 让数据用起来 01实时分析即未来 让数据用起来 让数据用起来 现代化分析应用–实时即未来 Datalosesvalueovertime 让数据用起来 应用场景–在线报表与决策 1 Onlinereportinganddashboard •广告营销报表 •保险客户分析 •物流实时看板 •交易明细查询 2 Onlinedecisioning •路线优化 •广告服务 •风险控制 •实时个性化 高并发(>1KQPS),低延迟(毫秒级),高可用 让数据用起来 应用场景–交互式数据探索分析 Ad-hocreportingUserprofileandbehavioranalysisLogstorageandsearchanalysis 中等并发(10QPS),中等延迟(秒级),自助查询 让数据用起来 应用场景–增量ELT数据处理 低并发(10QPS),高延迟(分钟级),定期调度 让数据用起来 实时分析的核心挑战 让数据用起来 02新一代实时数据仓库 让数据用起来 让数据用起来 现代分析应用的坚实底座-新一代实时数据仓库 实时数仓 传统数仓时代 新一代实时数据仓库 离线数据湖 2052015 一体机 分布式 云原生 让数据用起来 新一代实时数据仓库的三大特征 开源开放 •OpenSource •OpenLicense 实时统一 •Real-TimeData&Query •SingleUnified -Anytypeofworkloads -Struct/Semi-struct/Text -Lakehouse 多云原生 •Cloud-Native •Multi-Cloud 让数据用起来 SelectDB-ApacheDoris背后的商业化公司 致力于打造新一代实时数据仓库 开源+商业 服务开发者、用户和客户 致力于技术普惠和业务赋能 开源项目ApacheDoris Apache第20个顶级项目 全球最活跃的开源大数据项目新一代实时数仓技术 让数据用起来 社区开发者50 全球企业用户150 项目Star830 让数据用起来 商业化产品SelectDB 专业技术服务 •消除风险 •解决问题 •优化系统 企业级特性 •长周期支持的稳定内核 •可视化管控工具 •跨集群复制和备份恢复 云原生特性 •存算分离 •多计算集群 •弹性伸缩 SelectDBEnterprise 自管理、私有化部署 两种交付形态 SelectDBCloud 全托管的公有云服务 ApacheDoris 全球性能第一的实时数仓 202年10月登顶全球分析型数据库评测榜单Clickbench,性能全球第一,证明了出色的查询性能 让数据用起来 业界最为通用的c6a.4xlarge,500gbgp2机型 查询性能HotRun、ColdRun分别领先第二位35%、25% 性能排行全球第一 不同机型和系统的总榜(包含Snowflake、Redshift等) ColdRun查询性能第一 HotRun查询性能第二 让数据用起来 国内首家多云中立的SaaS化云原生实时数仓 RecommendedUseCase RealtimeDatabase DataDashboard Persona Observability 高度兼容大数据生态 •支持MySQL协议 •支持S3、Kafka、Flink等多种数据源导入 Database DataStream DataLake DataApplication DataWarehouse1 ClusterA DataWarehouse2 ClusterA ComputeNode ComputeNode ComputeNode ComputeNode ComputeNode ComputeNode ComputeNode ComputeNode Cache Cache Cache Cache Cache Cache Cache Cache autoscaling autoscaling ClusterB ClusterB ComputeNode ComputeNode ComputeNode ComputeNode ComputeNode ComputeNode ComputeNode ComputeNode Cache Cache Cache Cache Cache Cache Cache Cache autoscaling autoscaling ObjectStorageService ObjectStorageService TransformTool BITool DataScience DataApplication •支持Hive、Iceberg、Hudi湖仓一体架构 完善的云上生态 •秉持云中立理念,支持国内外多家云 •基于对象存储的存算分离架构 •弹性扩缩容、弹性计费 多种业务场景适配 •实时报表与多维分析 CloudService ServerlessConsole Metadata Security ManagementAPI •数据联邦与查询加速 •用户画像与行为分析 •日志存储与分析 完全自主可控的国产数据库 中国信通院“可信数据库”认证 2022大数据星河奖优秀数据库案例 公安部等保三级 ISO6项安全管理体系认证 2022信创产业实干者年度评选实干企业十多项国产化兼容信创认证 让数据用起来 技术领先安全可靠自主可控 产品特色 让实时分析快速简单 数据库 数据湖 数据流 简单易用的使用接口 支持多种负载的查询能力 高效的实时存储模型 从T+1->T+0的数据集成 数据低延迟查询低延迟 实时数据服务 交互数据分析 增量数据处理 让数据用起来 让数据用起来 从T+1->T+0的数据集成 实时写入 Realtimeinsert MySQL协议 应用 HTTP协议 •长连接:MySQL协议 •短连接:HTTP协议 流式同步 StreamingCDC •同步事务数据库 •同步Kafka 数据联邦 Datafederation •集成存储系统(S3,HDFS) •集成数据湖(Iceberg,Hudi,Hive) •集成数据库(MySQL,Oracle,ES等) 让数据用起来 高效的实时存储模型 实时更新的存储模型 •实时追加(明细表),实时插入、更新和删除(主键表) •半结构化数据类型:Array、Map和JSON(行、列) •Schemeevolution 强一致的(单表)物化视图 •支持预聚合视图 •支持行列混存(comingsoon) •支持Projection 丰富的索引 •跳数索引:BloomfilterIndex,Min/MaxIndex •点查索引:PrefixIndex,InvertedIndex 支持多种负载的查询能力 工作负载管理 •多计算队列:对负载进行隔离(comingsoon) •异常查询Kill:使用memtracker等机制kill异常查询 让数据用起来 高并发、低延迟 •高并发:1000–10wQPS •低延迟:毫秒/秒级 高性能,大查询 •高性能:秒/分钟级 •大查询:通过中间结果落盘 让数据用起来 简单易用的使用接口 兼容MySQL连接协议(API) 原生的开发WebUI 丰富的生态工具 四大应用场景解决方案 让数据用起来 实时报表与多维分析 将业务数据库或者应用日志的变更数据近实时导入进来,然后为大规模业务客户提供高并发、实时的在线报表与多维分析。 替代MySQL、HBase、Clickhouse、类HTAP系 统等。 用户画像与行为分析 收集用户相关的属性与行为数据,构建用户数据平台,进行用户参与、留存和转化等行为分析,以及人群洞察和人群圈选等画像分析。 替代Elasticsearch、Spark等。 数据联邦与查询加速 通过Multi-Catalog机制,对外部存储、开放数据湖格式和常用数据库直接进行数据集成。无需移动数据,利用SelectDB/Doris进行极速数据查询。 替代Spark、Hive、Presto、Greenplum等。 日志存储与分析 将业务、系统或者物联网等相关的日志数据,存储为结构化、半结构化或原始文本,构建统一的日志存储与分析平台。在极低成本的基础上提供高性能的日志检索与分析。 替代Elasticsearch、Loki等。 THANKS 演讲者:连林江 SelectDBCOO 让数据用起来