您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[任子行]:Apache Doris在任子行的应用实践 - 发现报告
当前位置:首页/行业研究/报告详情/

Apache Doris在任子行的应用实践

信息技术2025-01-14孔繁艺任子行喜***
Apache Doris在任子行的应用实践

orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit ApacheDoris在任子行的应用实践 Asia2024 DorisSummit Asia2024 孔繁艺高级研发工程师 orisSummit DorisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 分享嘉宾-任子行 Asia2024 DorisSummit Asia2024 孔繁艺 Asia2024 DorisSummit 高级研发工程师 DorisSummit 目录01 02 背景介绍架构演进 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit DorisSummit Asia202 03企业实践 Asia2024 04总结规划 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 01 Asia2024 DorisSummit Asia2024 背景介绍 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 1-1公司介绍 DorisSummit Asia2024 DorisSummit 任子行网络技术股份有限公司成立于2000年5月,2012年 4月,在深圳证券交易所创业板正式挂牌上市,是国内网络安全行业领军企业,致力于成为国内领先的“网络空间数据治理专家”。 Asia2024 DorisSummit Asia2024 业务涵盖网络安全、公共安全、信息安全、运营商网络资源安全、终端安全、5G数据安全、工业互联网安全等众多领域,是国家重大活动网络安全服务支撑单位,也为“一带一路”海外友好国家政府提供网络安全解决方案。 Asia2024 DorisSummit 1-2早期业务架构 DorisSummit Asia2024 DorisSummit 舆情应用 AlgoServer Asia2024 数据采集 Kafka SparkStreamming Asia2024 APP orisSummit mit Asia2024 A DorisSummit Asia202 DorisSummit HBaseElasticsearch Asia2024 DorisSummit 1-3背景介绍 DorisSummit DorisSummit Asia2024 DorisSummit 数据孤岛 无法二次分析 离线分析难度大 orisSummit Asia2024 mit Asia2024 A DorisSummit Asia2024 Asia202 数据比较分散,在地域和存储引擎层面上来看都是一个个分散的数据孤岛,数据无法共享及统一处理。 业务系统架构扁平,基于ETL的明细数据,不会保留原始数据。 执行导数分析任务时,需要直接在业务系统中执行,对于大数据量的任务,严重影响ES集群的稳定性。 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 02 Asia2024 DorisSummit Asia2024 架构演进 Asia2024 DorisSummit 2-1架构演进:技术选型思考 DorisSummit ElasticsearchHadoop生态 orisSummit mit Asia2024 A DorisSummit Asia202 •存在写入瓶颈,吞吐能力达不到预期; •对服务器的CPU,内存及磁盘的要求都比较高; •倒排索引导致存储成本较高,达不到降本增效的效果; Asia2024 DorisSummit •聚合计算场景能力一般,会出现聚合不准确的情况; •分析需要具备DSL能力,复杂场景SQL模式支持有限; •传统数仓架构实时性得不到很好的保证。 Asia2024 DorisSummit •架构复杂度比较高,数据链路长。 Asia2024 •缺乏湖生态的技术储备,预研周期较长。 orisSummit Asia2024 DorisSummit Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit Asia2024 DorisSummit Asia202 2-1架构演进:技术选型思考 场景查询并发 ApacheDoris高 ClickHouse低 存储成本 低 低 计算能力 高 高 维护成本 低 高 社区活跃 高 中 易用性 高 中 Asia2024 DorisSummit 2-1架构演进:技术选型思考 需求场景 数据分层处理,ALLINONE ApacheDoris功能特性 DorisSummit 1、支持Duplicate明细模型,Unique主键数据模型,Aggregate聚合数据模型,满足数仓大部分业务场景;2、列式存储,数据拥有较高的压缩比,ODS层存储成本更低; 高吞吐,支持实时离线导入导出 1、支持RoutineLoad、BrokerLoad和StreamLoad等多种内置的导数方式;2、支持Flink、Spark、Datax、Kafka等源; Asia2024 DorisSummit 3、支持HDFS、S3、本地文件读取与写入; orisSummit Asia2024 A Asia202 一站式分析,统一数据出口即席分析查询能力 出色的计算能力,支持多维分析 Asia2024 高易用性及简易架构 1、出色的联邦分析能力,支持大部分主流数据湖、数据库的连接访问; DorisSummit 1、支持高并发,Unique表在高并发点查场景下可达数万QPS; Asia2024 2、不仅支持主键点查,在条件与范围查询场景下表现同样出色; 1、支持向量计算,聚合查询低延迟; 2、支持大部分Upsert操作,行更新,列更新,可满足用户信息,标签画像更新等场景; 3、大表Join支持度较好; 1、采用MySQL,支持标准SQL协议,使用成本低; mit DorisSummit 2、只有FE与BE两个进程,不需要引入外部组件;3、DorisManage、X2Doris等丰富的周边工具;4、社区活跃,社区支持度高,文档非常详细; Asia2024 DorisSummit 2-2架构演进:数仓架构 数据源 数据摄入 数据仓库 数据应用 ODSDWDDWSADS DataXJarCatalog FlinkCDC MySQL FileHbase Elasticsearch DorisSummit Asia2024 DorisSummit OpenAPI 即席查询 Asia2024 DorisSummit Asia2024 标签画像 orisSummit mit A Asia202 采集数据 Asia2024 DorisSummit KafkaFlink DolphinScheduler 调度引擎/计算引擎 ApacheFlink 自助报表关联分析 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 2-3架构演进:存储规模 Asia2024 DorisSummit Asia2024 DorisSummit 245TB1.5TB200+亿 DorisSummit Asia2024 总数据规模单日新增数据峰值总数据量 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 03 Asia2024 DorisSummit Asia2024 企业实践 Asia2024 DorisSummit 3-1企业实践:数据建模 DorisSummit Asia2024 DorisSummit ODS贴源层DWS汇总层ADS应用层 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia2024 Asia202 每天有几千万上亿的半结构化数据需要摄入,Json深度及字段数量都不可控,因此ODS层我们选用了基础的DuplicateKey模型,快速稳定的完成原始数据存储; DWS层跟据具体的数据特性在AggredateKey模型和UniqueKey模型之间进行选择。简单的去重和更新使用UniqueKey模型,指标语句和复杂数据合并使用AggredateKey模型; ADS层作为对外直接使用的应用层数据,我们主要沿用DuplicateKey模型和UniqueKey模型。点查和实时更新使用UniqueKey模型,周期全量计算结果表使用DuplicateKey模型; Asia2024 DorisSummit 3-2企业实践:写入吞吐问题 调整分区策略前 DorisSummit CREATETABLE`ods_xxx_post`( `post_id`VARCHAR(64)NOTNULLCOMMENT'帖子ID', `user_id`VARCHAR(64)NOTNULLCOMMENT'用户ID', `create_date`DATENOTNULLCOMMENT'发布日期', ..., `full_data`TEXTNULLCOMMENT'原始JSON', `insert_date`DATENULLCOMMENT'入库日期' ) Asia2024 DorisSummit DUPLICATEKEY(`post_id`,`user_id`,`create_date`,`task_id`)PARTITIONBYRANGE(`create_date`) DISTRIBUTEDBYHASH(`post_id`)BUCKETS16 PROPERTIES( "dynamic_partition.enable"="true","dynamic_partition.time_unit"="MONTH", ... ); 调整分区策略后 CREATETABLE`ods_xxx_post`( Asia2024 `post_id`VARCHAR(64)NOTNULLCOMMENT'帖子ID', DorisSummit `user_id`VARCHAR(64)NOTNULLCOMMENT'用户ID', `insert_date`DATENULLCOMMENT'入库日期', ..., `create_date`DATENOTNULLCOMMENT'发布日期', `full_data`TEXTNULLCOMMENT'原始JSON', ) DUPLICATEKEY(`post_id`,`user_id`,`insert_date`,`task_id`)PARTITIONBYRANGE(`insert_date`) Asia2024 DISTRIBUTEDBYHASH(`post_id`)BUCKETS16 PROPERTIES( "dynamic_partition.enable"="true","dynamic_partition.time_unit"="MONTH", ... ); orisSummit A Asia202 mit Asia2024 DorisS

你可能感兴趣

hot

Apache Doris在天翼云的最佳实践

信息技术
天翼云2024-04-25
hot

小米集团基于 Apache Doris 的 OLAP 实践

电子设备
DataFunSummit2023:OLAP引擎架构峰会2023-08-09
hot

1-5 Apache Doris 在同程数科数仓建设中的实践

信息技术
DataFunSummit2022:多维分析架构峰会2022-07-18