您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2023第十二届全球TOP100软件案例研究峰会]:虎牙-郑健彦-智能弹性在虎牙降本增效上的探索与实践 - 发现报告
当前位置:首页/行业研究/报告详情/

虎牙-郑健彦-智能弹性在虎牙降本增效上的探索与实践

AI智能总结
查看更多
虎牙-郑健彦-智能弹性在虎牙降本增效上的探索与实践

智能弹性 在虎牙降本增效上的探索与实践 郑健彦虎牙AIOpsleader “ 讲师简介 郑健彦HUYA基础保障部 AIOpsleader 2017年华南理工大学硕士毕业后,加入联想数据中心部门负责故障预测等工作。2019年加入虎牙直播,在质量,效率和成本三个方面落地AIOps。涉及异常检测,多维度根因定位,时序预测,智能弹性和大数据算力调度等相关工作。 ” www.top100summit.com www.top100summit.com 目录 -亮点介绍&案例背景 -基于AI预测的日常弹性 -业务容量模型 -基于容量模型的赛事弹性 -边缘算力智能弹性 www.top100summit.com 亮点介绍 •什么是智能弹性AI-HPA? •科学计算一年流量最高的时刻需要准备的算力资源 •保证在线服务在7*24h下不过载 •一键对所有服务预扩容到所需的容量 案例背景 •在直播场景下,流量呈单峰结构 系统容量 资源使用量 •赛事(游戏直播界的双十一)期间质量抖动 www.top100summit.com 时间 区域为算力冗余 www.top100summit.com 周期偏移适应差配置繁琐 健壮性差配置复杂 案例背景 Kubernetes中应用实例数设置的三种策略 利用率低 www.top100summit.com 基于AI预测的日常弹性 (AI-HPA的常规模式) www.top100summit.com 核心实践1-基于AI预测的日常弹性 为什么需要预测? •标准的HPA是基于指标阈值进行伸缩的,常见的指标主要是CPU、内存。 •但是基于指标的伸缩存在一定的时延,这个时延主要包含:采集时延+上报时延+伸缩时延。 •当负载的峰值毛刺非常尖锐时,可能会由于HPA的时延造成副本数目无法及时变化,短时间内应用的整体负载飙高,响应时间变慢。 www.top100summit.com 核心实践1-基于AI预测的日常弹性 Idea:系统在服务指标突增之前进行提前扩容总体架构: 核心实践1-基于AI预测的日常弹性 •服务的副本数计算公式 期望副本数=ceil 当前副本数× 풎�x周期预测,当前指标 期望指标 www.top100summit.com max(预测指标,当前指标)>扩容阈值?->扩容max(预测指标,当前指标)<缩容阈值?->缩容 •通过训练和预测生成“AIHPA定时伸缩配置” www.top100summit.com 核心实践1-基于AI预测的日常弹性 预测算法: LightGBM 支持分位数回归不用处理缺失 方便利用特征工程做一些处理 成本: 每个分组“取数据+训练+预测“15s完成 典型服务预测准确率: 90+% www.top100summit.com Question 我理解AI-HPA相对于HPA解决了弹性扩容滞后的问题,是一种成本换质量的方法,如何能利用这个节省成本呢? 核心实践1-基于AI预测的日常弹性 预测效果图 www.top100summit.com 成果展示1-基于AI预测的日常弹性 开启弹性伸缩 节省成本28% 核时基线弹性核时 减少频繁扩缩容 避免副本数震荡 收益 提前扩容 对周期性流量突增,在突增之前提前扩容 避免监控数据出错造成的误缩容 预测值和真实值相互兜底 www.top100summit.com www.top100summit.com 业务容量模型 保障服务在赛事期间的质量稳定 www.top100summit.com 核心实践2-业务容量模型 全球总决赛 赛事-游戏直播界的“双十一” 如何用最低的算力成本保障赛事期间质量的稳定? •哪些应用是赛事PCU相关的? •应用在特定的PCU下需要多少资源? www.top100summit.com 核心实践2-业务容量模型 哪些应用是赛事PCU相关的? 容量模型: PCU与使用核数的关系 •很多核心服务的峰值核数和峰值PCU的线性相关性很强 •应用发版等可能会导致 资源使用发生变化(如右图三)这意味着我们不能直接取长时间每天一个点的数据来回归。 一些应用每天的PCU峰值和使用核数峰值的散点图 核心实践2-业务容量模型 应用在特定的PCU下需要多少资源? 对总PCU做线性回归,但只考虑赛事那一段 使用核数 •可解释性: k意味着每观众PCU需要多使用多少核 •是否赛事PCU相关 赛事PCU相关应用:相关系数>0.9 对与赛事PCU无关的的服务,k为0,b为高峰期使用核数 PCU www.top100summit.com 每分钟粒度的PCU和使用核数散点图 核心实践2-业务容量模型 训练和更新 CPUPCU 预处理 •更新周期:一周一次 •准确率 整体准确率为89.35% 资源使用top100的应用准确率:90.43% www.top100summit.com www.top100summit.com 基于容量模型的赛事弹性 (AI-HPA的赛事模式) 核心实践3-基于容量模型的赛事弹性 总体架构 将容量模型植入AI-HPA,实现根据PCU扩容 将预估PCU和实时PCU输入容量模型, 得到预测使用核数,进而得到预测CPU使用率,k8s比较预测CPU使用率和扩缩容阈值,决定是否要扩缩容 •日常小赛事由实时PCU进行扩容 (PCU>?赛事AI-HPA模式自动生效) •大赛事配置预估PCU,提前扩容 풎�x周期预测,赛事预测,当前指标 期望副本数=ceil当前副本数× 期望指标 www.top100summit.com www.top100summit.com 核心实践3-基于容量模型的赛事弹性 配置预估的PCU www.top100summit.com 核心实践3-基于容量模型的赛事弹性 配置预估的PCU 核心实践3-基于容量模型的赛事弹性 应对cpu的赛事突增&周期性突增的提前扩容效果 应对大赛事时的提前预扩容√ 应对cpu周期性突增的提前扩容√ 应对普通赛事时的自动提前扩容× www.top100summit.com www.top100summit.com 核心实践3-基于容量模型的赛事弹性 应对cpu的赛事突增&周期性突增的提前扩容效果 应对大赛事时的提前预扩容× 应对cpu周期性突增的提前扩容×应对普通赛事时的自动提前扩容√ www.top100summit.com 核心实践3-基于容量模型的赛事弹性 赛事容量预估 通过精准预估赛事高PCU时所需资源,可以看资源是否充足,且提前和云厂商报备 www.top100summit.com 核心实践3-基于容量模型的赛事弹性 容量&准确率巡检 核心实践3-基于容量模型的赛事弹性 容量&准确率巡检 www.top100summit.com www.top100summit.com 核心实践3-基于容量模型的赛事弹性 容量&准确率巡检 •可视化调整模型 •确保整体服务容量模型准确率>85% CPU 副本数 •反例: (无容量模型)or(容量模型不准)导致扩容滞后 ->服务过载 ->影响用户 www.top100summit.com 成果展示3-基于容量模型的赛事弹性 红色竖线处上线了赛事模式,整体的黄金指标质量开始变好 可用率:晚高峰时所有黄金指标成功率的最小值的平均(分钟粒度) 黄金指标质量 可用率 赛事日期 www.top100summit.com 成果展示3-基于容量模型的赛事弹性 AI-HPA&容量模型如何影响应用部署架构&节省成本: 1.改变了赛事时中心机房部署架构 增加SET模式->固定SET+AI-HPA赛事模式弹性成本收益:节省SET内非弹性应用的算力 2.改变了日常时的应用架构日常SET数量缩小一倍 www.top100summit.com 边缘算力智能弹性 www.top100summit.com 核心实践4-边缘算力智能弹性 边缘算力背景: •边缘算力特点:机器按天/月收费or按小时计费但手续费很高 •虎牙部署在边缘机房的业务:信令,音视频相关服务(转码,P2P)等 •信令,音视频P2P是高观众PCU相关的业务,转码服务是高主播PCU业务 痛点&问题: •边缘算力保持在一个比较高的水平,利用率低,浪费资源 •面临高PCU时资源预估不准 www.top100summit.com 核心实践4-边缘算力智能弹性 整体架构 弹性思想: •实时监控指标作为兜底(CPU使用率) •业务指标弹性为主 信令&音视频P2P->观众PCU 音视频转码->主播PCU •按天扩缩 www.top100summit.com 核心实践4-边缘算力智能弹性 信令业务案例 www.top100summit.com 成果展示4-边缘算力智能弹性 信令业务边缘算力智能弹性上线后效果图 www.top100summit.com 小结 微信官方公众号:壹佰案例关注查看更多年度实践案例

你可能感兴趣

hot

AIOPS语义级日志异常检测在证券行业的探索与实践 - 李进武

金融
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

SLO在小红书的探索与实践 - 韩奇祺

文化传媒
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

3 阿里云-StarRocks+Paimon在阿里集团LakeHouse的探索与实践

信息技术
StarRocks 2024 年度技术峰会2024-12-17