您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站]:刘晓辉-运维平台可观测与数字孪生的落地实践_加水印 - 发现报告
当前位置:首页/行业研究/报告详情/

刘晓辉-运维平台可观测与数字孪生的落地实践_加水印

AI智能总结
查看更多
刘晓辉-运维平台可观测与数字孪生的落地实践_加水印

运维平台可观测与数字孪生的落地实践 刘晓辉 运维开发团队负责人 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 刘晓辉 运维开发团队负责人 应用运维开发团队负责人,近年来带领团队在公司内与行业内与合作伙伴共同完成多个运维开发项目,推动公司内应用运维平台与相关团体标准建设。当下着眼于可观测与数字孪生在运维平台的实战并取得了部分成果,未来计划紧跟技术风口,在智能运维和大模型领域寻找可能的运维落地场景并尝试实践验证。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 01 关于应用运维的问题与思考 目录 02 可观测监控 03数字孪生 04未来展望 01关于应用运维的问题与思考 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运维痛点 系统复杂度高 需要支持主机,SOA,微服务等多元环境 故障风险点位多 软件多,交易链路 复杂自动化要求高 降本增效 需要及时精确的数据获取 需要快速精准的故障处置 可视化要求高 需要展示的数据种类多 需要采集的数据对象多 数据质量参差不齐 安全要求高 担负民航运行生命线生产安全责任重 用户群体多元且权限划分细致 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 应用运维的主要工作 运维工作与应用场景 监控规则设置监控工具优化 应急演练 系统应急恢复数据补偿 运维需求分析运维工具开发 监控报警应用变更 例行维护应急处置问题排查处理 容量规划 运维设计开发 变更准备变更实施结果检查 故障原因排查容量评估 系统实施 运维反馈改进运维知识输出 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运维平台建设路径 手工化(ManualOperation) 特征指标:无 运维任务主要依赖人工执行,包括监控、配置、故障排查 平台化(Platformization) 特征指标:平台化率 建立统一的运维平台来集中管理运维任务,实现部分流程的标准化和规范化。 自动化(Automation) 特征指标:工具化率 利用脚本、工具和自动化软件来执行重复性的运维任务,减少人工干预。 智能化(IntelligentOperation) 特征指标:无 应用人工智能、机器学习等技术,使运维平台能够自我优化、预测故障和自动解决问题 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运维平台整体架构方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 运维平台整体架构方案 02可观测监控 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 监控整体架构方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 监控三要素的能力对可观测能力的支持-日志和指标 日志 集中存储搜索与分析 指标 仪表盘趋势分析 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 基于审计日志的调用链路分析 审计日志是开发规范中必须要打印的日志,在程序入口和出口分别打印,包括唯一ID,进出目的,错误响应,系统耗时等内容 •全局唯一的GlobalID •控制头 •扩展区 •内容区 处理架构 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 基于审计日志的调用链路分析 软件调用链服务调用链实体调用链 基于生成对抗网络的无监督时间序列异常检测 应对复杂数据模型、低质数据(缺失值和噪音等问题)的无监督异常检测技术 预处理后的输入数据 学习和检测模型框架 1-数据预处理 数据标准化[-1,1] x1 x2 xW xxx 缺失值预处理 23 W1 X 滑动窗口处理,构建X xxx TWTW1T1 2-模型训练 组成:编码器e、解码器d、原始空间判别器D、隐空间判别器C 生成器和判别器对抗学习 3-异常检测 一个经过预处理的样本传递给异常检测模块,通过编码器和解码器将序列重构到原始空间,利用原始空间判别器将重构序列与原始样本比较,获得异常分数,如果异常分数高于预设阈值,则该样本被判别为异常样本 4-应用情况 本算法对部分潜在问题的提示优 于基线算法 xTW1xTW2xT GOPS全球运维大会暨XOps技术创新峰会2024·北京站 不同模型针对生产(E)及测试(A-D)数据集F1Score对比(SALAD为本项目模型) 多尺度时序异常检测方法研究及其在流式场景下的应用 应对时间序列的概念漂移问题的无监督异常检测方法 1.创新点 •小波变换降低时序复杂性得到多尺度时序表示 •图模块建模多尺度下变量间的依赖性 •流式场景下的多尺度蒸馏和记忆遗忘机制 2.模型构成 •多尺度分解-生成模块:捕获不同频率尺度下的细微异常 •多尺度图模块:建模多尺度下的变量依赖性 •多尺度知识蒸馏模块:简化网络结构,减少计算和内存开销 •记忆遗忘模块:快速感知概念漂移 3.应用领域 •通过对复杂时序数据的多尺度分析,识别系统运行过程中潜在的异常模式和故障,预防事故发生。 Model A B C IF 0.6167 0.0690 0.2718 AE 0.1753 0.0823 0.1825 VAE 0.1581 0.0552 0.4802 MAD-GAN 0.3136 0.2391 0.3238 Beat-GAN 0.1679 0.3417 0.1538 Donut 0.5126 0.4668 0.5333 SPOT 0.1698 0.1484 0.1847 MemStream 0.3384 0.4351 0.3609 MEMA(本项目模型) 0.6352 0.8362 0.5918 基于小波分解的图自编码器框架 面向流式异常检测场景的动态调整框架 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 03数字孪生 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 数字孪生的对象与建设思路 数字孪生(DigitalTwin) 数字孪生是物理对象、系统或过程的虚拟表示。它是一个动态的软件模型,可以模拟物理实体的行为和性能。用于模拟和预测物理实体在现实世界中的行为。 进行测试和优化,而无需对实际系统进行更改。 在IT运维中,数字孪生可以用于模拟系统变更的影响,而可观测性平台则用于监控这些变更在实际系统中的表现。 物理层 数据层 虚拟层 值机 机场 航班 安检 航班 航班 航班 行李分拣 日志 指标 身份校验 调用链 登机口升舱 ...... GOPS全球运维大会暨XOps技术创新峰会2024·北京站 登机 可观测数字孪生 数字孪生的初步具体实现 行李分拣 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 身份校验 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 基于诊断和快照的根因分析 04未来展望 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 可观测平台 数字孪生 定位 目的数据 交互性 基础 监控、分析和故障排除 收集日志、指标和追踪数据 弱 应用 模拟、测试和预测 依赖于数据来更新其状态 强 可观测和数字孪生的结合 AIAgent和大模型在运维过程过程中的可能应用场景 智能监控利用各种算法对系统中各类指标的阈值进行智能推定,提升 检测的准确性 根因分析 利用自然语言处理能力,从数据中提取信息,调度Agent帮助进行根因分析 人机交互利用自然语言理解和生成能力提升人机交互的流畅性自然度 大模型AIAGENT 知识管理 利用信息整合和推理能力,提升知识管理的系统性和知识输出的精准性 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 Thanks 高效运维社区DevOps时代 荣誉出品 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 THANKS 感谢大家观看 2024.6.28

你可能感兴趣

hot

咪咕互娱云游戏平台智能化运维与可观测性实践探索- 周鸣

文化传媒
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

赵舜东-基于开源工具的运维可观测性建设实践-赵班长

信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17
hot

赵舜东-基于开源工具的可观测性平台二次开发实践-赵班长

信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

刘志-从理念到落地:中小银行智能运维体系建设实践

金融
2023 DOIS DevOps 国际峰会 · 北京站暨 BizDevOps 企业峰会2023-10-08