登录
注册
回到首页
AI搜索
发现报告
发现数据
专题报告
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
新能源车
AIGC
Chatgpt
大模型
新质生产力
低空经济
当前位置:首页
/
行业研究
/
报告详情
/
3-2 分布式KV存储系统Apache Pegasus的应用与实践
信息技术
2022-07-19
DataFunSummit2022:大数据存储架构峰会
M***
AI智能总结
查看更多
项目介绍
概念
分布式数据库:优点包括可扩展性和高可用性,但一致性保证和故障诊断较为复杂。
SQL vs NoSQL:关系型数据库适用于通用数据格式,而非关系型数据库适用于高效处理简单数据格式。KV数据库属于NoSQL类别,用于存储Key-Value键值对。
背景
面向数据规模较大、对延迟敏感且有强一致性和持久化存储需求的业务。
架构
Meta Server:集群控制及配置管理。
Replica Server:数据节点,支持固定Hash分片并实现数据强一致,采用三副本架构,使用RocksDB。
数据模型
支持多种操作,包括基本操作(如set/get/del)、多条记录的原子操作(如multiSet/multiGet/multiDel),以及扫描和CAS操作(如checkAndSet/checkAndMutate)。
功能特性
性能
单条数据1KB时,版本2.2.0基准测试显示,5个节点的读写速度分别为:读取4612897次/秒,平均延迟591微秒;写入255911次/秒,平均延迟11微秒。
读写接口
基础操作:set/get/del。
多条记录操作:multiSet/multiGet/multiDel。
扫描操作:hashScan和fullScan。
CAS操作:checkAndSet和checkAndMutate。
其他操作:incr和exist。
数据热备
数据在多个区域之间复制,实现最终一致性读。
数据冷备
支持将数据上传到HDFS或AWS,以便恢复和备份。
BulkLoad
支持批量加载数据文件,实现高效的数据导入。
大数据生态融合
实现在线数据导出和离线计算结果导入,以支持实时读取。
应用实践
适用场景
适用于数据结构简单、存储量大且有持久化需求的业务,尤其适合强一致性和低延迟要求。
小米场景
大数据OneID业务
:冷启动生成原始数据,T-1数据存入数据仓库,实时BI使用Pegasus进行查询。
峰值QPS可达130万/秒,延迟P99小于10毫秒。
广告算法特征缓存
峰值QPS写6万/秒,读60万/秒,延迟P99小于15毫秒。
社区场景
神策数据
使用Pegasus进行id-mapping、渠道追踪、用户画像服务和多租户服务。
规模达到1000+集群。
开源展望
发展历程
从2015年开始公开,2016年发布1.0.0版本,2020年正式加入Apache基金会。
社区活动
2021年8月出席Apache首次亚洲技术峰会,并发表演讲。
未来规划
功能方面:增强数据安全、SLA保障、多云架构支持等。
开源建设:推动合规建设、提高社区活跃度等。
你可能感兴趣
5-4 Apache Spark 在自助分析系统的应用实践与优化
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
3-3 联想基于Apache DolphinScheduler构建统一调度中心的应用实践
信息技术
DataFunSummit2022:现代数据栈技术峰会
2022-11-02
1-5 龚兵-vivo存储系统的数据可靠性探索与实践
电子设备
2023 Gdevops全球敏捷运维峰会
2023-07-31
4-6 Apache Iceberg 在小红书的探索与实践
文化传媒
DataFunSummit2022:大数据存储架构峰会
2022-07-19
分布式应用运行时的落地实践_郭智勇
信息技术
ArchSummit深圳2023|全球架构师峰会
2023-08-02