您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:大模型与AIGC峰会]:大语言模型在ICT运维领域的研究及应用-datafun - 发现报告

大语言模型在ICT运维领域的研究及应用-datafun

AI智能总结
查看更多
大语言模型在ICT运维领域的研究及应用-datafun

陶仕敏-华为-2012文本机器翻译实验室技术专家 DataFunSummit#2023 个人及团队介绍 孟伟彬:华为数通产品线技术专家,清华博士毕业。 2016年至今:华为2012文本机器翻译实验室,技术专家。Lab北京团队及创新技术合作负责人。主要研究方向:智能运维、神经机器翻译、基于日志的大模型研究及应用 刘逸伦:华为2012文本机器翻译实验室,助理研究员。 之前主要经历:百度。历任工程师、技术经理和智能运维负责人,主要工作职责:运维平台建设,智能运维产品开发 目录CONTENT 01大语言模型观点03大语言模型在ICT的应用 02自然语言在ICT领域的发展04未来畅想 大语言模型的发展及观点 DataFunSummit#2023 观点:ChatGPT通过大语言模型技术引爆AI产业 chatGPT下一代快速进化,GPT4在各种人类考试场景测试中大幅超越GPT3.5,部分标准化测试表现超过人类水平 微软全面拥抱OpenAI大模型技术,基于GPT4的Copilot在办公产品中全面应用 观点:时代在高速地进行,速度越来越快。它是结构上决定的,势不可挡。-陆奇 观点:人类语言是模型理解世界的桥梁,与人类对齐成就更好的模型效果和体验 自然语言在ICT领域的发展 DataFunSummit#2023 万物皆可译(解码) 翻译:加密解密的过程 沃伦·韦弗(Warren Weaver,1894年7月17日至1978年11月24日)是美国科学家,数学家和科学管理人员。[1]他被公认为机器翻译的先驱者之一,并且是在美国为科学提供支持的重要人物。 来源:https://en.wikipedia.org/wiki/Warren_Weaver Transformer的出现进一步验证了这个理论的正确 基于人类自然语言的交互 注:部分示意图片来自互联网公开数据 ICT运维场景及目标:基于数据、算法和场景驱动的智能运维 场景及目标:围绕运维对象,发现其与预期不一致的状态,通过事先定义的Action,驱动运维对象状态的恢复。数据:日志、KPI、告警等。 1.KPI是统计数据,对于服务的本身状态是一种成本开销上的折中。 2.告警本质是把机器状态数据通过可接受的成本转化成自然语言,方便人理解。3.日志某种程度上可以看做是机器语言,更加全面。在大模型时代更适合作为模型的语料。 大语言模型为什么可以应用到ICT运维领域 问题场景 日志是一种类自然语言的文本,似乎可以通过LLM来加强对日志文本的理解 通过预训练或者指令学习,可以适应多任务场景,从而可能建立处理框架 (https://github.com/logpai/awesome-log-analysis) [1]LogAnomaly: Unsupervised detection of sequential and quantitative anomalies in unstructured logs (IJCAI 2019)[2]LogParse: Making Log Parsing Adaptive through Word Classification. (ICCCN 2020)[3]LogStamp: Automatic Online Log Parsing Based on Sequence Labelling. (WAIN Performance 2021)[4]BigLog:UnsupervisedLarge-scale Pre-training for a Unified Log Representation(IWQoS2023)[5]DA-Parser: A Pre-trained Domain-Aware Parsing Framework for Heterogeneous Log Analysis(Compsac2023)[6]LogXXX投稿中 BigLog:https://github.com/LogAIBox 第二代技术LogStamp:基于深度学习的日志分析,日志解析效果的接近于1 借鉴BERT的训练思路,采用无监督的方法,把日志模板解析转化成自然语言序列标注任务,对日志句子的每个词token化。本质是二分类问题,保留Templates标签,然后construction成Templates。整体效果非常不错 第三代技术:Biglog致力于解决目前方法中定制化严重、各自为战的现象 目前相关技术的缺点: 1、缺少统一的模型:现阶段针对不同任务需要不同的算法,维护成本高,需要统一的大模型涵盖所有的日志分析需求,实现多业务场景融合 2、缺少语义:原有方法对日志的语义理解能力不够,导致无法识别日志内的语义异常和日志间语义关联异常,所以需要使用更强的语言模型获取日志的语义表征。 3、严重定制化:不同方法预处理、提取日志特征向量依赖于手工特征或者定制模板,泛化能力不够,需要统一的日志特征提取方式。 第三代技术:Biglog基于预训练的日志语言理解模型 日志异常检测 日志故障预测 日志解析任务 2个公开数据集上取得12项最佳表现小样本场景下超过当前最佳模型40%以上 3个公开数据集上取得6项最佳表现迁移学习场景下超过当前最佳模型32.30% 7个公开数据集上取得19项最佳表现细粒度场景下超过当前最佳模型40.74% 支撑 支撑 解决方案 Biglog技术难点 预训练日志领域的语言模型 通用语言模型BERT对日志理解能力不足 •引入总共78G、来自16个域的日志作训练集•设计时间窗口式的日志序列拼接方法,让模型关注时间片关联 •对来自新设备、新领域的日志理解能力不足•无法捕捉日志序列间的上下文依赖关系原始日志内容存在大量噪声•大量非自然语言字符串(127.0.0.1、/etc/cron.hourly)•不规范词、复合词(SCHEDULE_RECORDREMAINING)信通信领域日志中存在大量术语•ospf、ftp、mac、ip 设计新的日志预处理流程 •设计多种方法过滤不规范文本题•利用[IP]、[FILE]、[CODE]等特殊符号替换原始串 利用数通术语增强模型预训练(V4) •挖掘原始日志语料中出现的高频术语词•利用prompt、术语mask等方式增强预训练 Biglog:通过大规模预训练来理解日志 Outstanding Log Understanding Ability Biglog:统一日志框架+Biglogembeddings在日志解析任务上的效果 Biglog:异常检测模块+Biglogembeddings在异常检测任务上的效果 Biglog:故障预测工作流+Biglogembeddings在长序列故障预测任务上的效果 Biglog:预训练提升了领域的泛化能力和few-shot能力 Domain-adaptiveness ofBiglog:1.Superior to specialized domain adaptation methods, such as Few-shot Learning Ability ofBiglog:1.Exceptional performance with extremely limited training data LogTransfer2.Achieves good performance with limited target-domainsamples3.Accurately discriminates normal and abnormal logs in thetarget domain4.OutperformsLogTransfereven with a small amount of target-domain data5.Generalized log representations from pre-training phaseenhance domain-adaptiveness 2.OutperformsDeepLogandLogAnomalywith as few as 20samples3.Surpasses multiple baselines when training samples increase to1004.Demonstrates remarkable F1-score on Spirit dataset withoutprior exposure5.Promising results in new domains with few labeled historicallogs DA-Parser:Biglog应用到跨域日志解析任务 (1)现有日志解析算法依赖于基于日志中词级别差异(例如,“-”)提取日志的共同部分作为模板,忽略了日志的语义含义。(2)在单领域日志分析中,这种错误影响很小。然而,当日志来自多个领域时,大量纷繁复杂的日志格式会导致解析错误的概率大大增加。(3)现有的多源日志解析解决方案需要大量的人工标签工作,使其难以在线上环境中使用。 Log Templates by DA-Parser 在没有域信息的限制下,现有方法错误地将共同部分“-”识别为来自不同领域的三个日志的日志模板。 处理多源日志输入时,现有的日志解析算法的性能会下降多达30%。 Compsac2023 DA-Parser:基于预训练模型的两阶段域感知日志解析框架 •结果:•DA-LogParse在F1分数和RandIndex上的表现超过了 基线模型,表现最佳。•对所有7个基线模型都有普遍的改进。•DA-LogParse:F1-score从0.6443提高到0.7837•DA-LKE:RandIndex从0.0266提高到0.7016•DA-Parser的效果提升是因为使用模板集的提取考虑了日志语义,并且考虑了各个域的特征。 阶段1:领域日志分类1.预训练领域感知层 2.映射日志的语义空间3.预测日志所属领域 阶段2:单域解析1.为每个领域提取模板集 2.合并领域模板集进行在线匹配解析3.可支持16域日志解析,无需人工标注 与7个现有算法相比,DA-Parser的多源日志解析性能取得最佳 大语言模型在ICT领域的应用 第四代技术:LogXXX日志运维向智慧体演进,增强可解释性,减少数据依赖 Biglog实现了日志理解,基于一定的训练数据可以自动映射故障现象,但依然没有完成智能运维的最后一步:根因分析和故障自恢复。Biglog的交互设计缺乏反馈与互动,离“智慧体”距离遥远。 运维智慧体Logxxx:并非数据驱动,而是Prompt驱动,激发大模型的日志分析和推理能力,充当设备系统与工程师之间交流沟通的桥梁。 LogXXX:Prompt策略+大模型=强大的零样本故障推断与可解释性日志分析能力 Logxxx(零训练数据)在异常检测、日志解析任务相较于现有方法(大量训练数据)取得12项最佳表现,超过现有方法51.9%。 Logxxx的根因生成与变量解释能力在业界专家评测中取得了90+以上的高分。 LogXXX:实验结果 CoTprompt策略中不同CoT策略对日志异常检测任务的影响 In-Context prompt策略中Context长度对日志分析性能的影响 未来畅想:从LLM到AGI DataFunSummit#2023 未来畅想 感谢观看