热门搜索：

微信云原生大数据平台构建及落地实践-涂小刚

信息技术2023-06-05ArchSummit上海2023|全球架构师峰会付***

AI智能总结

微信云原生大数据平台构建及落地实践

1. 大数据上云概述

基础设施变迁：从物理机迁移到云主机、云盘、云网络；从存算一体变为存算分离；从单一集群环境变为多种集群环境（专用、离在线混部、GPU）。
业务对平台个性化需求：支持自研或基于TensorFlow、MPI等二次开发的计算框架；支持多种计算模式（CPU、GPU、CPU & GPU混合计算）。

2. 为什么大数据要上云

灵活性：灵活高效的容器编排、插件扩展能力。
弹性和资源管理：计算存储分离，按需弹性扩展。
兼容性：大数据及AI框架几乎都原生支持，无需侵入式改造。
运维成本：降低运维成本，应用层无需介入。

3. 微信大数据平台架构演进

早期架构：自研资源调度平台（Spark、Hadoop MR、TensorFlow等），自研存储和调度，自主可控。
当前架构：基于K8S的云原生架构，涵盖Spark、Flink、TensorFlow等计算组件，支持多种集群环境（离线、在线混部、GPU）。

4. 大数据上云基础建设

统一编排：通过BigData Operator实现统一接入，简化提交端逻辑。
Pod设计及配套能力：使用initContainer解耦平台与业务，减少公共组件成本；运行日志持久化，通过K8S拉取日志展示。
计算组件云环境适配：Spark外置Shuffle服务，提高稳定性和可靠性；Hadoop工具组件上云，通过Spark实现原有功能。

5. 稳定性及效率提升

K8S集群稳定性与弹性配额：优化master组件，资源配额限制从admission control迁移到scheduler中。
可观测性与智能运维：建设内部告警系统，全方位指标收集及监控；智能运维归因与建议，多维度监控系统异常并及时调整。

以上是对研报主要内容的总结。

微信云原生大数据平台构建及落地实践腾讯-微信技术架构部/涂小刚主要内容一、大数据上云概述 1.为什么大数据要上云 2.微信大数据平台架构演进三、稳定性及效率提升 1.K8S集群稳定性与弹性配额 2.可观测性与智能运维二、大数据上云基础建设 1.统一编排 2.Pod设计及大数据配套能力 3.计算组件云环境适配一、大数据上云概述 1.为什么大数据要上云基础设施的变迁 •物理机->云主机、云盘、云网络 •存算一体->存算分离 •单一集群环境->多种集群环境（专用、离在线混部、 GPU）业务对平台个性化需求 •业务灵活定制计算框架 –自研或基于tensorflow、mpi等二次开发 •支持多种计算模式 –CPU计算 –GPU计算 –CPU&GPU混合计算业界大数据资源平台发展演进 IDC时代云时代 WhyK8S？ •灵活高效的容器编排、插件扩展能力 •计算存储分离，互不影响，各自按需弹性扩缩容 •大数据及AI框架几乎都原生支持，无需侵入式改造，可以灵活适配 •运维成本低，应用层无需要运维介入一、大数据上云概述 2.微信大数据平台架构演进早期微信大数据平台架构任务调度 Web/API 优势： Spark HadoopMR Python … 计算组件 TensorFlow MPI Shell PyTorch •自研调度和存储，自主可控 •充分利用在线闲时段资源不足： •各模块组件高度耦合资源调度自研资源调度平台 •侵入性对接开源计算框架，开发迭代慢存储自研存储/HDFS 最初是为了在线微服务设计，当时还没有k8s •运维成本大微信云原生大数据平台架构 @since2020 应用平台 BI/画像/机器学习/AB实验任务调度扩展组件原子级框架工作流调度API运营管理 MRDistCSparkFlink业务定制… PSQLSQL SparkFlinkTensorFloPyTorcMPIJob wh PAAS 大数据专用离/在线混算力PulsaHDF 部GPUrSCOS TKE(K8S) IAAS 虚拟机云盘云网络灰色部分为云上设施和能力 •高效的任务调度 •资源管理&弹性资源&智能运维 •不再有Hadoop，相关组件使用Spark实现 •集成丰富的功能组件并支持业务扩展 •云原生适配开源主流计算框架 •自研通用Job框架，支持无状态批处理 •资源编排基于K8S，多种集群环境 •打通适配多种分布式存储二、大数据上云基础建设 1.统一编排业界计算框架接入K8S方案不统一 •Spark –SparkonK8SNative:框架自带，版本要求>=2.3 –SparkOperator:开源生态 •Flink –FlinkonK8SNative:框架自带，版本要求>=1.12 –FlinkOperator:开源生态 •TensorFlow/PyTorch/MPI –KubeFlowTrainingOperators NativeVSOperator KubernetesAPI Master masterworkerworkerPodPodPod NodeKubernetes Core KubernetesAPI CRD Master Controller Node Kubernetes CR NativeOperator •框架直接与apiserver交互，控制pod的启停 •优点：可以根据计算特点实现动态申请资源 •缺点：提交端要负责任务生命周期管理、权限管理等 •自定义crd，声明式接口，由controller管理生命周期 •优点：对提交端更友好，只管提交和同步状态 •缺点：不能实现动态分配（可以跟native结合使用）如何接入？任务提交 … 只需要负责提交以及状态跟踪 CRD CR Service Master Controller NodeKubernetes ConfigMapWorkloads DeploymentStatefulSetsJob Pod … 为了简化提交端逻辑，所有框架的应用（作业）通过Operator声明式API接入 APIServer 不同框架casebycase接入 SparkOperator FlinkOperator sparkapp sparkapp flinkapp flinkapp 任务提交 TensorFlowOperator MPI Operator tfjob tfjob mpijob mpijob … … … … •提交端需要分别对接各种框架的接口 •具有共性的功能需要在各个operator里分别实现一遍 APIServer 统一接入-AllinOne … SparkOperator FlinkOperator TensorFlowOperator MPI Operator sparkapp sparkapp BigDataObject flinkapp flinkapp 任务提交 tfjob tfjob 屏蔽不同框架的差异，透明接入 mpijob mpijob … … … BigDataOperator •任务提交端只需要对接bigdataoperator •具有共性的功能统一在bigdataoperator里做 APIServer BigDataOperator 统一接入-AllinOne BigDataObject … SparkOperator FlinkOperator TensorFlowOperator MPI Operator … sparkapp sparkapp flinkapp flinkapp 任务提交 tfjob tfjob 屏蔽不同框架的差异，透明接入 mpijob mpijob … … •进一步整合，编译到一起 •方便跨集群环境部署 #框架Operator本身的CRD规格 #统一所有框架应用的运行状态对所有框架的运行状态判断逻辑一致，简化任务提交端的逻辑 BigDataOperatorCRD 提交超时控制任务提交 … pending pendingpending Controllers 编排超时时间控制，超过阈值则失败，并给出失败原因 MutatingAdmissionWebHook BigDataOperator 资源回收加强运行结束的作业，Service资源不会被回收！！！ driverdriversvc JobManagerDeployment JobManagersvc headlesssvc ps-0 executo executor TaskManager Job tbsvc worker-1 rDeployment Submitterworker-0 Controllers MutatingAdmissionWebHook BigDataOperator 1.任务结束，主动回收Service，释放IP资源 2.TTL配置，一定时间后回收整个任务的资源（delete） hostNetwork网络适配使用hostNetwork时，同一个节点不同业务端口冲突！！！ Node Spark-1driver-pod Spark-2driver-pod 冲突 Flink-1JobManager-pod Flink-2JobManager-pod 冲突 TensorFlow-1worker-pod TensorFlow-2worker-pod 冲突 WebUIPort:4040RPCPort:7078 WebUIPort:8080RPCPort:6123 BlobPort:6124 WhyhostNetwork？ 1.Pod调度量大，容器网络ip不足 2.容器网络网络传输效率低 ServerPort:2222TensorBoardPort:6006 hostNetwork网络适配预分配端口，利用K8SPod反亲和调度避免冲突随机预分配端口注入Pod反亲和配置从系统可用端口范围中随机分配端口 Spark-1driver-pod 分配port：62222,62225 可调度违反 Node1 bigdataoperator编排 spec: affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: -labelSelector: topologyKey:kubernetes.io/hostnamematchExpressions: -key:xxxPortoperator:Invalues: -"xxx" Spark-2driver-pod 分配port：62222,63030 Spark-3driver-pod 分配port：61020,62225 pod反亲和可调度 Node2 … 二、大数据上云基础建设 2.Pod设计及大数据配套能力大数据及AI多集群环境下Pod设计 BigData独�集群（稳定性要求高的任务）混部集群/算力GPU集群（离线或者GPU训练） Node 业务PodinitContainer Spak/Fink/TensoFow/…lrlrConanerit hostIPC hostNetwork hostPath OssAgentPod ClusterAgent Pod … Node 业务Pod intConaneriti Spark/TensorFlow /…Container OssAgentContainer ClusterAgentContainer hostNetwork 以DaemonSet方式将辅助agents部署到每个节点上最小化公共组件的成本，最大化机器资源利用业务和agents以多容器方式运行在同一个Pod 业务之间尽可能完全隔离，充分利用机器空闲资源使用initContainer解耦平台与业务业务更灵活，平台更稳定大数据类：Spark、Flink AI类：TensorFlow、PyTorch 用户只需提供业务Jar包即可，运行环境平台统一提供 Pod Init-container（平台提供镜像）挂载主机临时目录 pod销毁时自动回收 emptydir 业务容器（平台提供镜像） Init-container：拷贝用户Jar和依赖到挂载目录 -hdfs://xxx/path/to/jar 运行环境千变万化，平台只提供公共能力，核心运行环境由用户提供 Pod Init-container（平台提供镜像）挂载主机临时目录 pod销毁时自动回收 emptydir 业务容器（用户提供镜像） Init-container： 1.拷贝hadoop等基础库到挂载目录 2.拷贝启动脚本entrypoint.sh（安全启动）到挂载目录 •业务容器启动命令：/xxx/entrypoint.shuser_cmd 运行日志持久化业界常规做法ELK的不足！！！ Node 业务业务 podpod LogAgent Kafka ES/Kibana … 1.检索 2.分析 3.可视化 4.告警 … 可以查看运行中pod的日志 Node SparkFlink podpod Web系统 kubelet … Node Pod销毁后无法查看日志！ Sparkpod Flinkpod kubelet K8Scluster APIServer ELK的不足： 1.日志量大，agent实时采集上报，会占用较多宿主机资源 2.整套方案太重且成本昂贵（流量、存储、查询、维护等多种费用）运行日志持久化实现一套轻量级的大数据作业日志系统 APIServer 监听本机Pod Sparkpod Node … Flinkpod Node Web系统运行中，直接通过 k8s拉取日志展示容器退出事件上传 Pod容器日志 LogBa

点击免费查看完整报告