大语言模型在ICT运维领域的研究及应用 陶仕敏-华为-2012文本机器翻译实验室技术专家 DataFunSummit#2023 个人及团队介绍 2016年至今:华为2012文本机器翻译实验室,技术专家。Lab北京团队及创新技术合作负责人。主要研究方向:智能运维、神经机器翻译、基于日志的大模型研究及应用 之前主要经历:百度。历任工程师、技术经理和智能运维负责人,主要工作职责:运维平台建设,智能运维产品开发 孟伟彬:华为数通产品线技术 专家,清华博士毕业。 刘逸伦:华为2012文本机器翻译实验室,助理研究员。 01大语言模型观点 目录 CONTENT 03大语言模型在ICT的应用 02自然语言在ICT领域的发展04未来畅想 01 大语言模型的发展及观点 DataFunSummit#2023 观点:ChatGPT通过大语言模型技术引爆AI产业 chatGPT下一代快速进化,GPT4在各种人类考试场景测试中大幅超越GPT3.5,部分标准化测试表现超过人类水平 OUTLOOK PPT Word Excel Notebook 视频会议Teams •直接根据需求写 文稿 •提供微调功能,灵活选择文字风格、文本长度 •根据需求一键生 成PPT •可以微调PPT风格 •插入Note、PPT等附件多模态交互生成相关文本•支持多种本文结构,可以将Word文本直接生成PPT •通过Copilot获取数据,分析结果、分析图表和数据、做未来预测 •自动生成任务流 程等功能性文本 •Copilot理解会议内容,用户问Copilot(小组成 员对某问题看法、某产品在会中的信息), •会后直接生成纪要 微软全面拥抱OpenAI大模型技术,基于 GPT4的Copilot在办公产品中全面应用 观点:时代在高速地进行,速度越来越快。它是结构上决定的,势不可挡。-陆奇 观点:人类语言是模型理解世界的桥梁,与人类对齐成就更好的模型效果和体验 ①认知对齐→智能的工具 ③习惯对齐→更自然的输出⑤体验对齐→好的产品 数据语料 预训练LLM InstructGPT RLHF Safety Chat-GPT ②指令对齐→推理能力 ④安全对齐→避免道德和法律风险 大语言模型+Prompt的架构模型 5个对齐成就更好的LLM产品 人的认知世界 试图解决这个不一致,实现人类对齐。各种Prompt技术 意图理解的不一致,导致模型输出不符合人类需求 基于自身的语言 来驱动大模型 PromptApplication:帮助人更好用提示词生成人想要的内容(文本、图片和语音) 数字世界 (大型语言模型) 基于语言对世界 进行数字化建模 物理世界 注:仅代表一种理解和可能 Promptlearning:预设问题Prompt帮助模型理解人的意图和需要 from:https://lifearchitect.ai/chatgpt/ 02 自然语言在ICT领域的发展 DataFunSummit#2023 原文 加密 密码本 解密 密文 自然语言 文本图片语音 万物皆可译(解码) 翻译:加密解密的过程 沃伦·韦弗(WarrenWeaver,1894年7月17日至1978年11月24日)是美国科学家,数学家和科学管理人员。[1]他被公认为机器翻译的先驱者之一,并且是在美国为科学提供支持的重要人物。 来源:https://en.wikipedia.org/wiki/Warren_Weaver Transformer的出现进一步验证 了这个理论的正确 基于人类自然语言的交互 注:部分示意图片来自互联网公开数据 ICT运维场景及目标:基于数据、算法和场景驱动的智能运维 场景及目标:围绕运维对象,发现其与预期不一致的状态,通过事先定义的Action,驱动运维对象状态的恢复。 数据:日志、KPI、告警等。 1.KPI是统计数据,对于服务的本身状态是一种成本开销上的折中。 2.告警本质是把机器状态数据通过可接受的成本转化成自然语言,方便人理解。 3.日志某种程度上可以看做是机器语言,更加全面。在大模型时代更适合作为模型的语料。 Status 决策 运维对象 故障恢复自动化 EventDriven Serviceinvocation 设计数据:MO类型关系 规划数据:组网、配置 运行数据:日志、性能、告警 Action Action Action Action Action Action 大语言模型为什么可以应用到ICT运维领域 问题场景 模板提取 异常检测 问题定位 服务恢复 日志是一种类自然语言的文本,似乎可以通过LLM来加强对日志文本的理解 结类构自化然文语本言 半 表:一些网络基础设施中的日志消息,日志中的详细信息和自然语言有一定的相似性 通过预训练或者指令学习,可以适应多任务场景,从而可能建立处理框架 基于日志的自动化分 析任务 日志压缩 LogCompress 日志解析 LogParsing 日志挖掘 LogMining …… 异常检测 AnomalyDetection 故障预测FailurePrediction 图:基于日志的自动化分析任务总结(https://github.com/logpai/awesome-log-analysis) 故障诊断FailureDiagnoses LogAIBox:从智能运维到大语言模型驱动的运维智能 代际 输入 方法 目标 研究成果 类别 第一代 离散特征和KPI 特征识别及统计 拟合异常结果 Ft-tree TASKBASE 算法 LogParse 第二代 日志文本生成 深度学习 拟合异常结果 LogAnomaly token LogStamp 第三代 段落日志和跨域 预训练语言模型 日志语言理解 BigLog 日志 Da-Parser 第四代 原始日志和自然语言文本 大语言模型 意图理解的运维 Logxxx(审稿中) InstructionBased 第五代 智慧体… [1]LogAnomaly:Unsuperviseddetectionofsequentialandquantitativeanomaliesinunstructuredlogs(IJCAI2019) [2]LogParse:MakingLogParsingAdaptivethroughWordClassification.(ICCCN2020) [3]LogStamp:AutomaticOnlineLogParsingBasedonSequenceLabelling.(WAINPerformance2021)[4]BigLog:UnsupervisedLarge-scalePre-trainingforaUnifiedLogRepresentation(IWQoS2023) [5]DA-Parser:APre-trainedDomain-AwareParsingFrameworkforHeterogeneousLogAnalysis(Compsac2023)[6]LogXXX投稿中 BigLog:https://github.com/LogAIBox 第二代技术LogStamp:基于深度学习的日志分析,日志解析效果的接近于1 借鉴BERT的训练思路,采用无监督的方法,把日志模板解析转化成自然语言序列标注任务,对日志句子的每个词token化。 本质是二分类问题,保留Templates标签,然后construction成Templates。整体效果非常不错 在线日志解析背景LogStamp日志解析流程与效果 第三代技术:Biglog致力于解决目前方法中定制化严重、各自为战的现象 基于日志的异常检测 日志摘要 日志分类日志压缩 目前相关技术的缺点: 基于日志的故障预测 各自为战 1、缺少统一的模型:现阶段针对不同任务需要不同的算法,维护成本高, 需要统一的大模型涵盖所有的日志分析需求,实现多业务场景融合 2、缺少语义:原有方法对日志的语义理解能力不够,导致无法识别日志内的语义异常和日志间语义关联异常,所以需要使用更强的语言模型获取日志的语义表征。 3、严重定制化:不同方法预处理、提取日志特征向量依赖于手工特征或者定制模板,泛化能力不够,需要统一的日志特征提取方式。 14 第三代技术:Biglog基于预训练的日志语言理解模型 日志解析任务 7个公开数据集上取得19项最 佳表现 细粒度场景下超过当前最佳模 型40.74% 日志异常检测 2个公开数据集上取得12项最 佳表现 小样本场景下超过当前最佳模型40%以上 日志故障预测 3个公开数据集上取得6项最 佳表现 迁移学习场景下超过当前最佳 模型32.30% 支撑支撑支撑 Biglog技术难点解决方案 通用语言模型BERT对日志理解能力不足 •对来自新设备、新领域的日志理解能力不足 •无法捕捉日志序列间的上下文依赖关系 原始日志内容存在大量噪声 •大量非自然语言字符串(127.0.0.1、/etc/cron.hourly) •不规范词、复合词(SCHEDULE_RECORDREMAINING) 通信领域日志中存在大量术语 •ospf、ftp、mac、ip 预训练日志领域的语言模型 •引入总共78G、来自16个域的日志作训练集 •设计时间窗口式的日志序列拼接方法,让模型关注时间片关联 设计新的日志预处理流程 •设计多种方法过滤不规范文本 •利用[IP]、[FILE]、[CODE]等特殊符号替换原始串 利用数通术语增强模型预训练(V4) •挖掘原始日志语料中出现的高频术语词 •利用prompt、术语mask等方式增强预训练 15 Biglog:通过大规模预训练来理解日志 MLMPre-trainingDesign78Glogsfrom16domains OutstandingLogUnderstandingAbility Biglog:统一日志框架+Biglogembeddings在日志解析任务上的效果 Biglog:异常检测模块+Biglogembeddings在异常检测任务上的效果 Offline Online Biglog:故障预测工作流+Biglogembeddings在长序列故障预测任务上的效果 Biglog:预训练提升了领域的泛化能力和few-shot能力 Domain-adaptivenessofBiglog: 1.Superiortospecializeddomainadaptationmethods,suchas LogTransfer 2.Achievesgoodperformancewithlimitedtarget-domainsamples 3.Accuratelydiscriminatesnormalandabnormallogsinthe targetdomain 4.OutperformsLogTransferevenwithasmallamountoftarget- domaindata 5.Generalizedlogrepresentationsfrompre-trainingphaseenhancedomain-adaptiveness Few-shotLearningAbilityofBiglog: 1.Exceptionalperformancewithextremelylimitedtrainingdata 2.OutperformsDeepLogandLogAnomalywithasfewas20 samples 3.Surpassesmultiplebaselineswhentrainingsamplesincreaseto 100 4.DemonstratesremarkableF1-scoreonSpiritdatasetwithout priorexposure 5.Promisingresultsinnewdomainswith