您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:TDSQL PG管控平台与运营实践 - 发现报告
当前位置:首页/其他报告/报告详情/

TDSQL PG管控平台与运营实践

2024-09-10程鹏-M***
TDSQL PG管控平台与运营实践

1TDSQLPG产品概述 Contents 目2管控平台功能与架构 录 3高效安全的运营实践 4未来展望 01 分布式事务全局一致性 SQL高兼容度 HTAP融合 经典无共享(ShareNothing)架构,通过两阶段提交和全局时钟保证分布式环境的事务一致性 TDSQLPG分为PG兼容版和Oracle兼容版,前者全量兼容PG,后者高度兼容Oracle数据类型、函数、PL/SQL特性 同时具备高效的OLTP处理能力和一定规模的OLAP能力,降低业务复杂度和成本 GTM(事务管理器) 全局事务管理器,协调集群集群事务,并管理全局对象 Coordinator(协调节点CN) 业务访问入口,每个节点对等,对外提供一致视图 GTM-M TransactionInfoGlobalobject Coordinator1Globalcatalog Coordinator2Globalcatalog Coordinator3Globalcatalog GTM-S TransactionInfoGlobalobject Datanode1Localcatalog LocalData Datanode2Localcatalog LocalData Datanode3Localcatalog LocalData Datanode4Localcatalog LocalData Datanode(数据节点DN) 业务数据存储节点 02 集群 资源管理 多级容灾 扩容缩容备份恢复 监控告警 在线升级数据多活智能诊断负载均衡 •支持按租户、资源池进行资源隔离,提供机器和实例生命周期的资源管理自动化流程,灵活的资源分配策略 •多个维度保证集群的容灾能力:支持强同步复制、主备高可用、秒级PITR •支持横向/纵向扩缩容、数据搬迁、数据均衡、数据清理和回收 •支持NAS、HDFS、对象存储COS、S3、NBU等 •支持物理备份和表库级别的逻辑备份;支持全量+增量备份 •支持实时和历史监控,时间段对比 •支持配置告警预值、严重级别、电话、短信、微信、邮箱等 •业务面和管理面解耦;管控系统可自动化分钟级完成升级,内核版本可一键在线升级 •高效实现不同实例之间的数据同步,可用于异地多活场景 •与扁鹊、DBBrain集成协同,智能诊断异常,提供优化建议 •查看错误日志和慢日志,全局session,提供SQL优化建议 •插件式负载均衡管理,进一步提升可用性 •目前支持L5、LVS等多种负载均衡组件 部署 支持100多项运营操作 故障 修复 实例 生产 实例 变更 性能 优化 资源 回收 覆盖所有常用运营场景 TDSQLPG管控提供完备的企业级管控能力 深圳集群新加坡集群 北京集群 公有云 广州集群 上海集群 …… 银行业 通信行业 保险行业政务行业 能源行业 私有云…… 一套架构、两类场景(公有云/私有云)、三种输�模式(公有云/TCE/独立部署) 033.1运维管理工作流 BPMN工作流,分为执行节点和控制节点,实现异步长流程的可观测、可干预 消息机制保证工作流调度允许center单点故障 Center节点进行编排和调度,Agent节点执行原子操作 可暂停、取消、重试 流程可观测 可修改上下文重试 实例生命周期运维管理流程可观测、可干预 033.2高可用架构 OSSCenter容灾ConfDB容灾(依托于stolon开源组件) 完备的拨测策略,可应对进程/主机/机房/网络故障下的切换 synchronous_commit=on保证本机刷盘,并且同步到备机,备机xlog刷盘synchronous_standby_names指定备机列表,支持全同步、First模式和ANY模式可配置「强同步可退化」,守护程序根据备机状态动态调整备机列表 (s1,s2,s3,s4)or* Firstx(s1,s2,s3,s4)Anyx(s1,s2,s3,s4) 事务 等所有备机返回 事务 等前x个备机返回 事务 等任意x个备机返回 MS1S2S3S4 MS1S2S3S4 MS1S2S3S4 自动切换选主流程机制选择同步节点优先选receivelsn最大的备机receive相同,则选replaylsn最大的备机全部相同优先选择同城、同平面的备机 老主降备时间线分叉处理机制方式1:pg_rewind工具自动修复时间线分叉方式2:备库重搭(基于pg_basebackup) 业务OLTP应用 业务OLAP应用 业务OLAP应用 GTMmaster OLTPVPC/TGW 复制 OLAPVPC/TGW OLAPVPC/TGW GTMslave GTMslave 复制 CN1CN2 CN1slaveCN2slave CN1slaveCN2slave CN1slaveCN2slave 复制 复制 GTMslave 复制复制复制 DN1DN2 DN1slaveDN2slave DN1slaveDN2slave 复制DN1slaveDN2slave 读写平面OLTPoptimizer 复制复制 复制 只读平面OLAPoptimizer 复制 只读平面OLAPoptimizer 同城IDC1 同城IDC2 异地灾备IDC 同城单中心部署 同城双中心部署 两地三中心部署 支持两地三中心实例一键部署 支持灵活多样的自定义部署模式 复杂留给自己,简单留给用户 03 3.3备份恢复 DB3 IDC1 DB2 地域 DB1 DB3 IDC2 DB2 DB1 丰富的备份介质类型 •支持NAS、HDFS、对象存储COS、S3、NBU等主流的备份软件的备份恢复。 •支持xbsa接口协议快速对接第三方备份软件 备份中心 灵活的备份策略 文件上传文件下载 •支持物理备份和逻辑备份 •物理备份支持全量+增量备份 •逻辑备份支持库表级别 •支持自定义备份周期、保留的备份数、并发数、 本地HDFSCOS S3NBU 备份软件 压缩算法等。 磁带库一体机 DN 周期性全量备份 CN HDFS DN 全量备份 CN GTM xlog实时增量备份 COS xlog GTM 关键步骤: 1.各个节点独立进行周期全量备份和实时增量备份 2.内核分钟级产生GTS文件,得到逻辑时间和物理时间映射 3.根据元数据中的最大GTS和最小GTS计算可恢复时间 问题 优化 效果 内核GTS文件分钟级生成,PITR粒度太粗 采集并维护GTS和物理时间关系 PITR支持到秒级 存储介质文件块/文件数限制 大文件分块上传;小文件批量打包 解决各类存储池限制 备份空间/网络流量影响较大 支持lz4/gzip等压缩方式;多网卡分流 降低备份成本;降低业务影响 开始 创建同TOPO新实例 GTM节点PITR cn001节点PITR 等待各节点完成PITR 修改分布式路由表 修改分布式路由表 启动节点(PITR) 启动节点(PITR) 修改配置文件 (恢复时间) 修改配置文件 (恢复时间) 下载增量日志 下载增量日志 下载全量备份 下载全量备份 清空节点数据目录 清空节点数据目录 停止节点 停止节点 完成 dn001节点PITR 停止节点 清空节点数据目录 下载全量备份 下载增量日志 修改配置文件 (恢复时间) 启动节点(PITR) 修改分布式路由表 04 被集成 客户有越来越多的集成管控的诉求,如监控、告警接入自建系统 云原生 容器化、持续交付等提升软件生命周期效率 智能化生态完善 智能化的参数调优、扩容和资源调度周边生态工具配套持续建设