您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站]:让运维更智能:大模型时代下京东科技的AIOps之路 - 张静-超级5分钟 - 发现报告
当前位置:首页/行业研究/报告详情/

让运维更智能:大模型时代下京东科技的AIOps之路 - 张静-超级5分钟

AI智能总结
查看更多
让运维更智能:大模型时代下京东科技的AIOps之路 - 张静-超级5分钟

让运维更智能:大模型时代下京东科技的AIOps之路 张静 京东科技 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 京东科技AIOps整体能力 目录 异常检测与智能预测实践 多场景根因定位实践 京东运维大模型探索应用 人工智能 数据挖掘/机器学习/强化学习算法 内部复杂场景训练调优,积累大量负样本标记 专业人员及京东AI团队支持 大数据 京东大数据同款能力,专业、可扩展能力强 日志处理,实时、海量存储,也可复用客户资源 知识图谱 完整度高,覆盖新老设备和应用,一张图支撑所有业务 大量内部经验和规则沉淀 专业图计算能力加持 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 智能运维整体能力 故障发现 经验平台化,减少对老专家经验依赖; 上下穿透,一站式无需分层分别排查 无阈值监控减少误报,避免漏报 应急处理预案化、提升效率 故障定位 多种固定位算法策略灵活组合,基于APM调用链扫描挖掘故障节点关联性 通过NLP日志模板提取技术,基于知识图谱快速定位故障,做到故障发生时,扫描真正根因,输出根因报 业务可观测性:AI赋能运维监控,智能化故障发现与根因定位,快速感知业务健康度,提升运维效率和问题修复效率 系统稳定性:基于机器学习的磁盘/表空间预测提高资源利用率,基于AI算法的硬盘故障预测,告降本增效 磁盘/表空间趋势预测 依托京东大数据,利用机器学习、深度学习算法,对数据库磁盘空间、表空间以及内存未来使用趋势预测,大促容量预测快速调度,降本增效,精细化运营 硬件故障预测 标签数据不足够的PULearning半监督学习模式下,引入主动迁移学习,完成故障预测模型的训练;通过时空数据关联增强feature,输入给时间注意力模型,进而提升硬盘故障预测准确性。 技术底座 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 智能运维Themis平台:技术架构 被动响应 主动发现 数据驱动 智能驱动 运维系统 …… 资产系统 数据库 负载系统 …… 域名管理 Nginx系统 缓存系统 网络系统 主机系统 应用系统 流程系统 崩溃卡顿启动速度成功率响应率交易量 进程I/O 慢SQL 慢事务 CPU 内存 日志分析 链路追踪 数据采集计算 MQ Kafka 实时 离线 作业中心 数据管道 MQ/Kafka 定时Worker API接口 (Push/Pull) Flink/Spark流式计算 数据存储-数仓 数据模型 主题划分 数据分层 数据存储-图 数据映射 数据建模 数据存储-时序 多维聚合 时间序列 数据库 API接口 数据库 数据服务-算法 …… 告警共性分析 根因编排 智能文本分析 时序异常检测 智能监控 数据整合 智能告警 数据服务-基础 事件回调 OpenAPI 接口平台 数据应用层 运维知识图谱 应用健康度 自定义查询 BI报表 根因定位 监控告警 智能基线 异常检测 对接各个系统运维数据数据采集计算数据存储数据服务与应用 通过Bert预训练等NLP技术,对日志全貌聚类分析,内置K8S、缓存、数据库等多场景专家语料库,从日志角度发现问题,保证线上系统稳定性。 智能运维Themis平台:核心功能 ②智能文本分析 通过统计学习、时序聚类和时序网络算法,融合学习运维专家知识,生成多套运维专家算法组件,基于京东内部历年大促运维经验沉淀,覆盖核心业务交易、基础资源组件监控场景的故障预警,开箱即用,能够快速发现线上故障,实时监测系统稳定性,为系统运维提供有力支持。 集中管理监控指标,AI算法智能化检测分析海量日志处理,AI算法实时聚类分析 基于运维专家知识和算法融合生成式智能故障 诊断方案,内置日常业务依赖的应用、主机、容器、宿主机、缓存、数据库、ES、KAFKA、K8S及网络等40+智能故障定位场景。通过AI训练,生成精通运维全场景技术的智能诊断专家, 能够在复杂业务场景中快速定位故障。 基于apm调用链扫描 故障节点关联性 日志模版提取 知识图谱 将运维领域的知识语料与大模型结合,训练生成式运维预训练大模型,提升运维专家排障可迁移 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 性 数据层 主机 磁盘IO 网络IO CPU 数据库 低效SQL 索引缺失 连接数 中间件 缓存 Web服务 消息 服务端 代码行监控 业务监控 进程监控 方法性能 前端 地域运营商 JS错误 浏览器分析 页面性能 客户端 日志回捞 白屏监控 卡顿监控 网络请求 统一日志 归档订阅 关键词 实时日志 日志查询 链路追踪 链路分析 链路拓扑 请求链路 用户行为轨迹 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 落地场景 DC节能 运维知识 ‘问答 变更巡检 应用主机 离群分析 SSD寿命 预测 硬件故障预测 日志聚类 场景分析链路分析 无阈值监控 大模型时代下智能运维Themis平台:能力全景 智能运维能力 告警分析中心 事件预测 告警降噪 智能告警定级 相似事件召回 告警事件分析 告警关联分析 告警模板提取 告警聚类 智能巡检 告警健康度 日志画像 容量预测 智能评分 聚类分析 离群分析 趋势预测 故障预测 日志监控中心 日志序列预测 日志语义分析 日志模板AI标注 日志关联分析 日志分类 日志增量学习 日志异常检测 日志模式识别 故障定位中心 因果推断 故障注入模型 故障传播关系 事件根因分析 运维知识图谱 全链路根源定位 机器指标定位 多维下钻根因 指标监控中心 波形分析 指标相似度分析 指标趋势预测 多指标异常检测 突升突降识别 单指标异常检测 动态智能基线 指标聚类分析 融合大模型能力 运维日志分类 指标异常检测 运维知识问答 故障根因定位 辅助人工标注 RAG 意图识别 指令微调 相关性检索 根因汇总描述 Thanks 高效运维社区DevOps时代 荣誉出品 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 THANKS 感谢大家观看 2024.6.28

你可能感兴趣

hot

张静 - 让运维更智能:大模型时代下京东科技 AIOps 之路

信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17
hot

大模型时代的智能运维AIOps

信息技术
清华大学2023-10-18
hot

任志强-大模型Agent在AIOps运维场景的实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13