登录
注册
个人信息
我的订单
我的报告豆
我的优惠券
我的笔记
我的阅读
我的收藏
我的下载
我的上传
我的订阅
在线客服
退出登录
回到首页
AI
搜索
发现报告
发现数据
发现专题
专题报告
专题百科
研选报告
定制报告
VIP
权益
付费社群
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
Token
低空经济
十五五
AIGC
大模型
当前位置:首页
/
行业研究
/
报告详情
微信云原生大数据平台构建及落地实践-涂小刚
信息技术
2023-06-06
ArchSummit上海2023|全球架构师峰会
付瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶瑶
微信云原生大数据平台构建及落地实践总结
一、大数据上云概述
1. 为什么大数据要上云
基础设施变迁
:从物理机到云主机/盘/网络,存算分离,多集群环境(专用、混部、GPU)。
业务需求
:支持业务灵活定制计算框架(自研/TensorFlow/mpi等),支持多种计算模式(CPU/GPU/混合)。
业界演进
:从IDC时代自研平台到云时代Kubernetes平台。
2. 微信大数据平台架构演进
早期架构
:自研资源调度和存储,组件耦合度高,运维成本大。
云原生架构
:基于Kubernetes,适配多种存储,支持主流计算框架,自研通用Job框架,集成丰富功能组件。
核心优势
:资源编排灵活、适配主流框架、高效任务调度、资源管理与智能运维。
二、大数据上云基础建设
1. 统一编排
接入方案
:Native vs Operator,推荐使用统一接入的BigData Operator简化提交端逻辑。
统一接入优势
:屏蔽框架差异,只需对接BigData Operator,支持跨集群部署。
关键功能
:提交超时控制、资源回收加强、hostNetwork网络适配优化。
2. Pod设计及大数据配套能力
Pod设计
:业务与agents多容器运行,最小化公共组件成本,最大化资源利用。
initContainer解耦
:平台提供运行环境,用户只需提供业务Jar,提高灵活性与稳定性。
运行日志持久化
:采用轻量级方案,通过COS存储日志,成本低且资源占用少。
Application UI访问
:基于NGINX动态路由,解决动态生成作业和静态资源加载问题。
3. 计算组件云环境适配
Spark外置Shuffle服务
:采用External Shuffle Service上云方案,提高稳定性和弹性。
Hadoop工具组件上云
:使用Spark替代Hadoop工具,实现功能平替。
Flink弹性伸缩
:使用Flink adaptive调度器实现TaskManager和JobManager的弹性伸缩。
三、稳定性及效率提升
1. K8S集群稳定性与弹性配额
稳定性优化
:Etcd核心数据分离、任务调度流水线提交、Operator限流。
弹性配额
:将quota限制从admission control迁移到scheduler,实现资源强制回收。
2. 可观测性与智能运维
可观测性建设
:接入内部告警系统,持久化event指标同步,全方位指标收集及监控。
智能运维
:多维监控系统异常通知,数据拉取及归因,移动端处理操作调整。
你可能感兴趣
火山引擎-张起彤-基于云原生范式构建开发者平台实践
信息技术
2023第十二届全球TOP100软件案例研究峰会
2024-08-21
03-云原生跨域大数据架构落地实践-吴维伟
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
04-美团大数据及机器学习基础设施云原生改造实践-吴通
信息技术
ArchSummit北京2023|全球架构师峰会
2023-06-06
云原生时代背景下一体化智能可观测性平台落地实践
信息技术
GOPS 全球运维大会 2023
2025-04-27
新能源数智平台及云原生实践
null
浙江移动舟山分公司
2023-04-29
张云尧 - 火山引擎云原生大数据在金融行业的实践
金融
DataFunSummit2022:智能金融在线峰会
2022-11-24
基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
云原生存储 CubeFS 在大数据和机器学习的探索和实践-唐之享
信息技术
ArchSummit上海2023|全球架构师峰会
2023-06-06
尹春光 - 翼支付云原生数据开发与治理平台实践
信息技术
DataFunSummit2022:智能金融在线峰会
2022-11-24
微博-黄阳全-新浪微博云原生 PaaS 平台降本增效与稳定性建设实践
信息技术
2023第十二届全球TOP100软件案例研究峰会
2024-08-21