您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 DAMS中国数据智能管理峰会]:2-4 毛咏伟 - AI驱动下的可观测平台架构升级实践 - 发现报告

2-4 毛咏伟 - AI驱动下的可观测平台架构升级实践

AI智能总结
查看更多
2-4 毛咏伟 - AI驱动下的可观测平台架构升级实践

DAMS 中国数据智能管理峰会 MEWTSUNAI AI驱动下的可观测性架构升级实践 法讲人:毛咏伟 目录 01拱程可观测平台介绍02.可观测数据治理实践 03架构升级助力AIOPS04案例实践与思考 01拱程可观测平台介绍 DANS中国政量商普理峰会 Abouttrip.con 为用户提供一站式旅行服务的网站 应用数量Trip.cor 实例数量(虚拟机+容器)40wt 每日新站日志存 每分钟写入Nctric数量:10亿Trip.comGroup 2PB+携程集团 DAMS中国教密配范管理峰备 可观测性数据有哪些 网站当前有没有“问题”? Wetric 系统性能拍标 -应用性能指标 业务理点指标 -口志合行 LogeingTracing 系统日志 应用日志事件上下信息 业务日场景化西款设乳旗用技 负均月去应用调用大添 第三方添统日去 “问题”在哪里“问题”为什么出现“问题”的上下文 DAMS中国教出配好督理峰会 可观测性数据有什么用 监控告警故障处理根因定位 覆件/05异营 提似“上帝汉角” 确定幼章彩响范用 提升的章处理效中 基于质史经验自动解决收章 专家柔统的意揭快响 . 快速发现加速定位根本薛决 DAMS中国政证配好管理锋 可观测平台面临的挑战有哪些 设服务架构云原生技术1-5-10日标 -空用效三快速增长HPA(分律规交付效千客图)一1分神发现需特达视告管 一内用识用关系复卖-时问序列效看牢的是效存一快定位保赖可现测体乐 可观测系统稳定性 激据及时性 查询效平 站式平台打评务监控系单 海量新增口志持级写入 -日志丢失平净 -Metrio查询毫多购内 -ThLoing告询移级购应 一客量燃划指标治强体及 全路净编决时件 -日志平均保留天效> DAMS中国政出配好管理锋备 携程可观测平台介绍 携程可观测平台一站式产品入口 Netric统一查询层 日志统一查层白研Tracing系统 VatrirDB1 CAT系统 Vatrit:DEZ Gitkdu 指标tr日志联动 统一元效量Netrie治理 冷热分层 QTEL格入 全局报表 DAMS中国政出配际管理峰备 携程AIOPS平台➴绍 监控告管管理窄量 智能告警客量评分充更风险检叠 吉警☎因HPAAPAL置有-自动划车 故障定位一音量换测&压测分析智能化发布故障自您处理 A1OPS铺助决策层 可观测数据 算法 DAS中国教管配医量理综务 02可观测数据治理实践 DANS中国政量商普理峰会 携程日志系统架构 DANS中国政范范管理峰备 可观测性数据膨胀-日志量持续增长的问题 可H克auria:平月+量 存三日志通最保品天数其续增加(14->30-90-! DA儿S中国政管配旺管理蜂务 可观测性数据膨胀-日志量持续增长原因分析 业多☎然增长净放的日志增最理规清况: 行量日去清要证长时间应对客诉处孕,故降分析,计和合烦满求100100日去平均保行时长为5天 加法齐易,验减法记表动,发首采用详尽的日志记录单确:本了次据品持障时能有效定 存计宁使不断者加,大量场最需要保存请改报文和访问报文,极场最下单个报文字更美度经过20万宇行 以空工车转高,是平均量的较低的一驻在价,担对示弃易品活用的情资 DA儿S中#苦配旺管理蜂务 Logging日志治理实践 从分散到统一日志查询治理 一统一查询,缺一存计 公司内批进日志社用是社实段人表扫造限 Loegig最佳实践日志存储治理 一滋陌日志妹一规范本地盘+分布式存情 设置合理的保障天数冷热分高热术方案 设冒合理的发送阅值别0.oto 帽过闭值时有合理的采样责略租户源别0.ota DAMS中国政出配好管理锋备 可观测性数据膨胀-告菩数量持续增长的问题 +ALERTS ++20221-++202 L22willier/s150williow/s 42338 MetrieQutiny 1oooqutry/s5,fambc0as TriggerCownt1520 严重的吉需信息节低活先没吉需信息途“在天督文”,工程师对告营敏感性降低 DAS中国数量智质量理蜂备 可观测性数据膨胀-告警中台建设 DAS中 可观测性数据膨胀-:告警中台建设 : DAS中国政管配联管理峰务 可观测性数据膨胀-告警治理手段 告叠分级告警降景Oncal机制 雪rewlen PU/P1告雪外理时效性婴荣 告管聚台能力提升引入Bot协的处理 自动制和收敏机材一告警自急力起升 控划单位时间内告警数三、故障响密及处理方法沉定 DALS中国政管配旺管理峰务 可观测性数据膨胀-Metric高基数问题 Metrie-ramsLabe'-valeesCandinalty jpaddress hestaa-NL72ON131O-NL2HFA及量下会持链倍如 03.. dscontainerid报端估保:因用有异常号30收 重启一次,containerid数H appid10001,10002,1003 DAMS中国教诺智能管理峰者 可观测性数据膨胀-Metric高基数问题解决方案 监控工具功能升圾容量规划 增加增标限合能力Matrie存储集解自身的监控 引导用户进行聚合配置一关注效品增长 原拍恶降准,收象指标准实障率量内对预率 -MvicFalertiollt Natria指标治理过滤能力 高基数指标的识动和检烈自动识别人放的年度 非法写入☎动封禁实度一>用注度 tg蒸止快用陷机款不期理单需tr解决所有问 -字符内客最大值限利 DAMS中国教出配好管理锋会 03架构升级助力AIOPS DAMS中国政产管联管理障务 MetricFederation架构升级 VictoriaMeticsDB1统一API VictorisMetiesDB2 PROWXY NetricFadsration询 元数招背理 VictoriaMeticsDEn预紧合管理 DataoureCOPROMIXY ClickHouse元激据自动限流 DAS中国数量智质量理蜂备 构建日志统一查询层(1) 款滤表分布式表 DAMS中国款量配联管理障会 构建日志统一查询层(2) 日志烫存加速 SOL改写SQLpir ☎动划禁基于既计分析的不合理合询过减 基于规则的间愿宣询禁用 平均每天栏酸1.张+不合理用户音询自动益用有问需查询文证 DAMS中国教出配好督理峰会 日志跨集群迁移工具-让存量日志“动”起来 计 流程设计 日志跨集群迁移工具- "clickhouseBalancer" 集群内服务客利务空间均同正务高路期广客服务路联客 DAS中国教量配际管理峰者 携程统一监控Agent实践 -采集内容 系统级监控指标内核级监控指标日志统一采集 CFU 内行 ebptnotrics -亲统中际情说 syslog kernel1og 安全登录日法 网路10 -原件监控 uditloy 其热系统服务 其街庆层服务 一联务启停月志 . Trip-A1I-In-Unu-AGENT 操作系统硬件网略安全审计 DAMS中国教密配质管理峰者 程统一监控Agent实践 -收益分析 格式和命名统集中管控安全合规 使用吸一的监控A可以险生总中售配中置:利通置过监统一控的路 支和标准,使于后这的存请减少了分散管理带亲的夏杂性 外理和分折, 统一的前名规范可以减少效起 混,再保不同来源的取可 可以实的晚一的案全略,如款提加盗,防门控利和审计日志,第保敢控的安全性和规性。 监距kgnt在安全审计中 是一个重要的环节,可以 以正施关联和对比 有保新有性效保治理情草的一致性 动化这态,第暗爱善度的提升落电 DAS中国政管配旺管理峰务 携程统一监控Agent实践-运营情况 48707 100.0000% DALS中国政管配旺管理蜂务 可观测数据价值深入挖掘-整体思路 Netric统一查询 Loging绒一存怯 AIOPS平台价值落地 Tracing. 规范治理定期归档资源回收 04案例实践与思考 DAMS中国政量配管理峰务 携程AIOPS实践思路➴绍 “运炸之眼”“运维之于" 监控工具托供基础激构自动化运维探作 可现测平台提升效性质量请合大快型的疾放 A1OPS小助手 问龄诊断决策技行运维操作 整据标准化工具接口标准化 DAMS中国教出配好管理锋会 日常工作痛点问题-磁盘故障处理 发现问既匹配规则自动执行 DAMS中国教量督好督理会 AI通用智能告警 提采篇一自可观测平台提供既一的致范近取和注送清息队列配置中心一由0P3团以起供规风配置存代 AI通用智能告警 故障定位分析 DALS 应用报错分析 DAMSTRRERE 应用报错分析-调用链 告规则智能解析 故障会议自动生成总结 借助大模型能力,对故障时群单对话文本进行高效总法 DAS中国政管配旺管理峰务 故障复盘自动生成总结 估动大快型能力, 对障复盘详情进行高效总洁 DAMS中国教量配范管理峰备 AIOPS辅助排障 借的人模亚能力合基 础变更信息,发布信息, 可现测相关数出,进行交互式问答,辅动升障 DAMS中国政督好督理督会 借助AIOPS能力解决痛点 “手”“眼”合一,可观测平台诗续升圾,自动化工具-知识库建设形成规范 AIOPS➶助手AIOPS留能ALent 规则匹配自动执行复来切景辅助人工决策 告警自斑根因分析 变更授权故障领测 行为中计自动变更 DAMS中国教范配量理锋务 DAMS 中国数据智能管理峰会 ENEWTSUNI THANKYOU!