登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
2-1 从 Apache Doris 存算分离到 PALO 的湖仓一体
金融
2022-11-02
DataFunSummit2022:现代数据栈技术峰会
胡***
AI智能总结
查看更多
Doris历史回顾
2008年
:在百度诞生,定位为高性能分析型数据库,用于提升凤巢业务的数据分析时效性。
2012年
:成为百度首个公司级OLAP分析平台,并正式更名为Palo(OLAP的反写)。
2017年
:Palo在GitHub上开源。
2018年
:百度将Palo的核心引擎捐赠给Apache软件基金会,命名为Apache Doris,开始全力推进Doris社区发展。
2021年
:Doris社区快速发展。
2022年
:百度完成商标捐赠,推动Apache Doris成为顶级项目。
Doris数据结构
表格物理分桶
:表的物理分桶。
ROWSET
:每一批次数据导入对应一个ROWSET。
SEGMENT
:由ROWSET拆分而成,每个SEGMENT对应一个数据文件。
Footer
:包括文件信息及各片段的位置。
IndexRegion
:数据的索引信息。
DataRegion
:实际数据,采用列存储。
Page
:数据的基本存储单元。
存算分离
Doris存算分离
:IO层抽象,远端数据存储载体为S3或HDFS,本地数据缓存层为CACHE。
Palo存算分离
:tablet的元数据信息与BE分离,远端存储保存全量的tablet数据,BE保存部分热数据,以缓存形式存在,不再保存多副本,数据与远端存储一致。
Palo湖仓一体
访问其他数据源
:通过外表方式访问其他数据源,支持与Spark/Flink对接。
访问具体数据源
:
MySQLScanNode访问MySQL外表数据。
EsHttpScanNode访问ES外表数据。
OdbcScanNode支持ODBC接口,可访问Oracle、MySQL等数据。
元数据解析
:FE读取外表元数据,根据元数据解析出数据格式及存储。
数据读取
:BE层读取实际的文件。
Flink/Spark连接器
:支持Flink/Spark ETL。
你可能感兴趣
段晓东:从IPv6+到算力路由,开创算网一体新发展
信息技术
中国移动研究院
2023-12-12
7 京东物流-存算分离StarRocks在京东物流的落地实践
交通运输
StarRocks 2024 年度技术峰会
2024-12-17
2 得物-StarRocks存算分离在得物的降本增效实践
信息技术
StarRocks 2024 年度技术峰会
2024-12-17
通信行业周报:存算分离是大数据治理的基石,重构存储行业
信息技术
中银国际
2023-10-15
ByConity 对 ClickHouse 的存算分离实践
金融
DataFunSummit2023:OLAP引擎架构峰会
2023-08-09