您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[InfoQ]:分布式Data Warebase-加速企业数据智能化 - 发现报告
当前位置:首页/行业研究/报告详情/

分布式Data Warebase-加速企业数据智能化

信息技术2024-10-14胡月军InfoQ华***
AI智能总结
查看更多
分布式Data Warebase-加速企业数据智能化

分布式DataWarebase -加速企业数据智能化 ProtonBase技术VP/胡月军 目录 01/企业数字化背景和趋势02/WhyDataWarebase? 03/DataWarebase系统架构04/DataWarebase关键技术05/企业私域数据智能化探索 结构化 抽象 技术实现 价值挖掘 企业数据资产的DIKW模型 智慧 用于预测、决策并符合价值观的知识 知识 有上下文、可被解释的信息 信息 建模后的数据 数据 基本经营的数字化表征 数据处理历程 智能化 规模化 信息化 一个招猎业务的数据架构 简单查询 关键词搜索 快照 全量同步 关键词搜索 全量同步 增量同步 简单查询 对象存储 CDC 快照 增量同步 分析 语义搜索 应用应用服务 BI工具 简单查询 全量同步 增量同步 CDC 汇总分析 语义搜索 向量数据库 上述数据架构的弊端 开发门槛高 开发效率低 运维复杂 系统稳定性差 成本不可控 数据延迟 数据不一致 开发视角 运维视角 业务视角 结构化数据 半结构化数据 非结构化数据 关键词搜索 语义搜索 汇总分析 简单查询 统一的数据存储 兼容已有生态 隔离 统一的API 自适应 性能 正确 实时 分布式DataWarebase DataWarebase DataWarehouse+Database 所有数据 所有场景 极简体验 挑战极限 不是发明而是发现 快照 全量同步 数据开发的新范式 关键词搜索 对象存储 分析 应用 应用服务 BI工具 语义搜索 向量数据库 简单查询关键字搜索语义搜索 分布式DataWarebase 分析 BI工具 全量同步 全量同步 CDC 简单查询 增量同步 CDC 增量同步 快照 简单查询 CDC 增量同步 应用应用服务 Teleport 总体系统架构 MySQL/PostgreSQL NoSQL(MongoDB)CloudStorage(S3) CloudServices DataIntegration ManagementObservabilitySecurityBilling BusinessAppSearch LogDataEventData Device(IoT) Multi-ClusterCompute CentralizedStorage WarebaseWarebaseWarebase BI/Analytics Real-TimeDecision IDC CloudAlibaba Huawei Tencent AWSAzure AI/ML 关键技术 多云架构 多种存储格式 无限扩展 兼容PostgreSQL生态 存算分离 全托管 安全可信 多种数据 丰富的索引 分层存储 高性能多场景查询 高性能数据操作 高性能分布式事务 提升开发运维效率 负载隔离 自适应 多云原生 所有数据 所有场景挑战极限极简体验 多云存算分离 WarebaseA Multi-ClusterCompute Unit1 Unit1 WarebaseB Unit2 Unit3 CentralizedStorage CloudStorage Warebase 一个虚拟化的计算集群 由基于容器化的多个Units组成 Units可以快速增减 无需拷贝数据,新扩Units可立刻服务 Database 数据存储的逻辑单元 数据存储在EBS,S3等云存储中 多副本保证高可用性 存储不够时系统会自动快速扩容 新扩存储可立刻被所有数据库使用 列存 适合分析型场景 高效的多维过滤与聚合更高的压缩率 存储格式 行存 适合事务型场景高性能实时写入高性能点查 混合存储 适合HTAP场景 非结构化数据 高维向量 文字/图像/音视频的嵌入向量 关系型数据和向量数据可存储在同一个表 通过SQL提供查询 多种数据 半结构化数据 通过Json/JsonB类型支持半结构化数据 Json/JsonB列同一个路径允许有不同类型 关系型数据和半结构化数据可存储在同一个表 通过SQL/Jsonpath提供丰富的查询能力 丰富的索引 索引类型 支持全局二级索引支持倒排索引 支持Json索引支持向量索引支持位图索引 索引特点 索引和主表保持事务型强一致支持并发创建(concurrently)支持表达式索引 支持部分索引支持包含列 分层存储 热数据/实时数据高性能存储 冷数据/历史数据低成本S3 冷热分离 无限扩展 Unit1 Unit2 Unit3 水平扩展 只读实例 *该功能开发中 高性能多场景查询 高性能多场景 分布式执行计划 向量化执行引擎 索引加速 物化视图 简单查询 关键词搜索 向量搜索 复杂的分析查询 高性能数据操作 交互式增删改 高吞吐/零延迟 支持UPSERT/MERGE/UPDATEJOIN 支持输出更新的数据 导入导出 高性能导入COPYFROM 高性能导出COPYTO CDC 分布式事务 高性能分布式事务 支持完整ACID语意 支持多语句事务 支持对话式事务 高吞吐低延迟 兼容PostgreSQL生态 Gorm 驱动、框架、工具、文档、扩展 pgAdmin DBeaver QuickBI Mybatis DBT SQLAlchemy 负载均衡 WarebaseA WarebaseB WarebaseA WarebaseA WarebaseA’ Unit1 Unit1 Unit2 Unit1 Unit1 Unit2Unit1 Unit2 不同业务的隔离 同一个业务软隔离同一个业务的硬隔离 自适应 自适应 数据自动分片和均衡 自适应建索引 自适应编码策略 一阶段事务 查询自动选择存储格式和索引 查询自动决定并发度 生成式AI加速企业私域数据智能化 Pre-TrainedFine-TuningRAG 检索增强生成-RAG WarebaseA 7生成答案 召回系统 8 问题 12 345 提示 + 上下文 6 LLM EmbeddingService 搜索相关文档 知识库 OmniSearch NL2SQL SQLNL LLMServiceEmbeddingService StructuredDataJSONEmbeddings DataWarebase DataWarebase挑战极限,让数据涌现智能 更好的关系型数据库 分布式事务 水平扩展 半结构化数据 向量数据 更好的NoSQL数据库 分布式事务 表达所有关系 SQL查询语言 生态工具 更好的搜索引擎 语义搜索 数据强一致 数据无延迟 更好的数仓 高性能插入和更新 数据强一致 数据无延迟 更好的向量数据库 数据强一致 数据无延迟 数据关联 性能正确实时体验