您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[-]:AI生成checklist:Qunar使用AIGC在测试域的提效实践 - 发现报告
当前位置:首页/其他报告/报告详情/

AI生成checklist:Qunar使用AIGC在测试域的提效实践

2024-09-18崔宸-木***
AI生成checklist:Qunar使用AIGC在测试域的提效实践

AI生成checklistQUNAR测试域结合AIGC提效实践 崔宸 高级Java开发工程师 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 崔宸 高级Java开发工程师 2022年加入去哪儿旅行基础架构-基础平台团队,主要负责测试域工具的研发。参与过自动化测试、联调平台、写压测等项目,对录制回放场景有深入了解。 熟悉AI大模型通识,23年开始主攻AI大模型应用方向,完成AI在测试域、需求域提效的应用落地。在去哪儿AIGCHACKATHON大赛获得冠军。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 项目背景 目录 设计思路和方案 效果评估方案 成果及未来计划 01项目背景 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 项目背景 需求阶段开发&自测阶段测试&上线 需求沟通效率低 PM/DEV/QA三方沟通平均耗时30min-1h 自测自发不写case 开发自测可能不充分 写checklist耗时 平均耗时: 现有 5pd以下需求1-2h 5pd以上需求3-5h 痛点 需求文档质量参差不齐 逻辑清晰,沟通效率高逻辑混乱,沟通效率低无评估标准,只能凭感觉 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 项目背景 提升QA写checklist的效率 fromto 提升自测自发需求质量 from to 可以检查需求文档的质量 质量好:质量差: GOPS全球运维大会暨XOps技术创新峰会2024·北京站 02设计思路和方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 业界参考样例 基于自有大模型及微调的一键生成方式基于通用大模型多轮问答的方式 门槛高、成本高、需要数据积累有迁移、整理成本 Qunar探索的解决方案 主要(便捷):基于通用大模型+聚焦于需求点 +集成项目研发流程中的一键生成方式 辅助(灵活):智能体多轮问答 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 系统架构 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 执行流程 1.获取需求文档,对文本进行拆分 2.结构化文档+prompt向大模型提问 3.将AI返回的测试点进行转换,渲染为脑图 4.归档AI生成与手动修改完的case,分析数据 产品文档预处理 为什么要进行文档预处理? 原因分析: •需求文档无固定模板,规范性较低 •需求文档中的无关内容影响生成效果 解决方案: •需求文档预处理,提取需求正文 •拆分需求正文,获得结构化需求点 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 文本解析模块 符合标准格式: •工程化解析需求正文及需求点列表 •生成准确率高 问题: •对产品角色要求变高 •QA角色获益 •推进受阻 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 文本解析模块 圈定需求正文: •大模型解析需求点列表 •预处理成本低 •生成准确率高 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 一句话需求 文本解析模块 完全无格式: •大模型解析需求正文 •大模型解析需求点列表 •生成准确率取决于文档内容密度 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 需求分析模块 keyMessage:需求点关键信息 testPoints:测试点列表testDescription:测试点概述example:示例 需求分析模块——Prompt设计 角色 测试专家 &语言分析专家 样例 通过history模拟 Fewshot的方式来提升回答的准确率 能力 1,提取需求点文本的关键信息 2,给出测试点列表和示例 规则 1.关键信息只保留一句精炼的概括信息 2.每个测试点对应一个示例 3.以JSON格式输出 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 需求分析模块——LLM选择 AI基建情况 外部大模型 •安全审核 •接口统一化 内部大模型 •小参数的开源大模型 微调 •机器显卡有限 •缺少标准数据集 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 指标\LLM GPT-4-turbo GPT-3.5 chatGLM3-6B 采纳率(采纳case数/生成case数) 60%-70% 50%-60% 30%-40% 召回率(采纳case数/终版case数) 30%-40% 25%-30% 20%-30% 成本 0.0100$/ 1Ktokens 0.0015$/ 1Ktokens 0 测试用例转化模块 触发方式 •项目管理流程入口触发 •checklist平台内手动触发 •定时扫描第二天进入开发中的需求,触发自动生成checklist 融入原本的通用case模板 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 样例展示 03效果评估方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 效果评估模块 覆盖率 按照项目维度统计用户使用情况项目覆盖率:使用的项目数/全部项目数 采纳率 统计口径 原始生成结果中用户选取自动生成节点的概率 采纳率:(T+0.5*P)/A0 T完全可采纳节点数 A0自动生成总节点数 P部分可采纳节点数 F完全不可采纳节点数 召回率 用户进行修改之后采用的自动生成节点与总结点数的比率召回率:(T+0.5*P)/A1 A1终版checklist节点数 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 效果评估模块 方案 优点 缺陷 备注 用户点击反馈 实现简单,无需另外设计 会增加额外的流程,提高 •可能影响项目覆盖率 用户使用成本。 •可能影响统计效果 字符串匹配 用户无感知,对流程无侵 传统数学方式的匹配,不 Case1:密码正确时弹窗 入。只需要有AIGC源数 符合人修改checklist的使 Case2:密码不正确时弹 据和用户终版数据即可触 用习惯,统计效果会较差。 窗 发效果评估。 字符串匹配:87.5% 基于中文 同上。并且巧妙利用了用 前期需要人工评估一些 Case1:弹窗不能关闭 Embedding模型 户修改checklist的使用 case,建立一套合理的阈 Case2:弹窗不可以关闭 匹配 习惯,结合embedding 值和权值模型。如果使用 向量做语义相似度匹配。 外部的embedding模型接口会有一些花费。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 效果评估模块 中文文本embedding模型是一种将文本转换为向量表示的技术,它能够捕捉文本的语义和语法信息,并将其转换为连续的向量空间中的点。这种表示方式在自然语言处理领域被广泛应用于各种任务,如文本分类、情感分析、命名实体识别等。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 效果评估模块 自动生成节点数:5 终版checklist节点数:6 5 max 6 效果评估模块 相似度阈值 含义 接受率权值 98% (T)完全可采纳 100% 90% (P)部分可采纳 50% A0自动生成总节点数=5 A1终版checklist节点数=6 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 1st 2nd 100% 99% 3rd 95.7% 4th 5th 82.1% 77.9% 采纳率:(2*100%+1*50%)/5=50.0% 召回率:(2*100%+1*50%)/6=41.7% 04成果及未来计划 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 目前效果 准确率召回率 落地范围 60%-70% 采纳率∝ 需求文档逻辑清晰程度 30%-40% 召回率∝ 需求文档需求点拆分细致程度 提效成果 每月500+个项目使用产品需求覆盖率60%-70% •5pd及以下需求,每个需求节省0.1pd •5pd以上需求,每个需求节省0.2pd •年化可节省约200pd •填补自测自发不写checklist的缺口 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 未来计划 01内部大模型微调 涉及核心私密数据的需求,可以走内部大模型生成 02接入内部知识库 业务知识库:公司内部概念,黑话,历史资料等 技术知识库:系统调用关系,业务代码资料等 03结合多模态 支持解析PRD中存在的流程图、UI图信息 Thanks 高效运维社区DevOps时代 荣誉出品 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 THANKS 感谢大家观看 2024.6.28