登录
注册
回到首页
AI
搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP
权益
发现大使
发现一下
行业研究
公司研究
宏观策略
财报
招股书
会议纪要
稳定币
低空经济
DeepSeek
AIGC
智能驾驶
大模型
当前位置:首页
/
行业研究
/
报告详情
阿里云大数据计算平台基于 AIOps 的根因定位实践-张颖莹
信息技术
2023-06-05
ArchSummit上海2023|全球架构师峰会
徐***
AI智能总结
查看更多
阿里云大数据计算平台基于AIOps的根因定位实践
大数据运维背景
平台
:阿里云大数据计算平台,包括阿里灵杰、大数据计算平台、大数据计算服务MaxCompute、实时计算Flink版、实时数仓Hologres等。
核心问题
:大规模架构复杂,核心业务效率、稳定性和成本管理。
根因定位
业务价值
:缩短Mean Time To Resolve(MTTR),保障SLA(Service Level Agreement)。
定义
:根因定位是指在问题发生时,通过分析多个维度和数据,找到真正导致问题的根本原因。
挑战
:
数据来源和类型复杂。
指标间存在复杂的关联关系。
标注样本数量少。
性能和实时性要求高。
全新的根因类型或表现形式需要结合专家经验和模型能力。
根因定位实践案例
案例1:多维数据下钻分析
问题
:服务整体流量下跌。
解决方案
:通过显著度、惊喜度和贡献度来量化一个维度是根因的可能性。
框架
:DrillUp下钻分析框架。
案例2:计算平台故障根因类型定位
问题
:计算平台故障的具体原因。
解决方案
:
特征构建
:事件指标、日志、拓扑异常检测等。
样本积累
:故障演练数据增强。
定位模型
:基于知识的层次贝叶斯网络(KHBN)、XGBoost等。
框架
:CloudRCA根因定位框架。
案例3:网络故障根因类型定位
问题
:网络故障的具体原因。
解决方案
:
特征构建
:时序特征、方位特征等。
数据增强
:标签拓展、时间戳对齐等。
定位模型
:集成模型、归因模型等。
框架
:NetRCA根因定位框架。
根因定位背后的算法和工程链路
数据采集
:从运维中台、计算服务、算法服务等多个渠道采集数据。
算法服务
:包括异常检测、日志聚类、因果推断等。
平台支持
:MaxCompute、Flink、Hologres等系统支持。
总结与展望
效率与稳定性
:提高问题发现和解决的效率,保障系统的稳定性。
成本
:降低运维成本。
未来方向
:云原生数智运维平台,通过SREWorks输出更多算法服务,提升推断能力和可解释性。
查看更多
你可能感兴趣
张海瑞 -基于 Flink 的实时计算平台在新能源充电行业实践
信息技术
DataFunSummit2022:大数据计算架构峰会
2022-05-19
阿里云弹性计算智能化监控诊断的探索和实践-张尤
信息技术
ArchSummit北京2022|全球架构师峰会
2022-11-02
张耀东- Kyuubi 在小米大数据平台的应用实践
信息技术
DataFunSummit2022:大数据计算架构峰会
2022-05-19
5-2 基于大数据及机器人对话技术在综合理财平台下的应用实践 - 卢易 陆金所大数据平台负责人
信息技术
DataFunSummit2022:数据科学在线峰会
2022-06-13
2-2 基于云上对象存储的网易大数据平台应用实践
信息技术
DataFunSummit2022:大数据存储架构峰会
2022-07-19