您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[2024AI研发数字峰会AiDD北京站]:李庆泉-质量大模型及其在接口测试场景下的实践 - 发现报告
当前位置:首页/行业研究/报告详情/

李庆泉-质量大模型及其在接口测试场景下的实践

AI智能总结
查看更多
李庆泉-质量大模型及其在接口测试场景下的实践

质量大模型及其在接口测试场景下的实践 李庆泉蚂蚁集团 目录 CONTENTS 1大模型如何解决质量域问题 2质量大模型的构建路径 3质量大模型在接口测试中的实践 4未来展望 PART01 大模型如何解决质量域问题 大模型具有赋能软件研发全流程的能力 软件设计 环境搭建 软件开发 质量测试 原型图 UML图 流程图 依赖树 版本冲突 类与函数 数据结构 复杂度 验收测试 单元测试 Bug处理 软件 需求文档 (PRD) LiBWuWTangZetalDevbenchAcomprehensivebenchmarkforsoftwaredevelopmentJarXivpreprintarXiv2403086042024 测试用例生成 测试断言生成 测试输入生成 故障定位修复 质量知识查询问答 线上问题总结分析 大模型在质量域下的应用场景 WangJHuangYChenCetalSoftwaretestingwithlargelanguagemodelsSurveylandscapeandvisionJIEEETransactionsonSoftwareEngineering2024 阶段 继续预训练 微调对齐 对话服务 能力 领域知识注入 多任务能力获取 拓宽应用边界 大模型能够解决质量测试领域的哪些问题? 覆盖率要求高 全面、准确地发现 各种特殊情况与边 界问题 自动化难度大 经验密度大、业务 特异性高,难以自 动化或手段难复用 人工成本高 测试用例撰写、质 量问题分析等工作 需要大量人工 质量测试 1严谨、全面 2知识、经验 执行中心 基础质量概念问答 端到端任务执行 质量测试领域呼唤质量大模型 知识中心 语言理解质量知识 业务经验 服务中心 质量工具调度 外部知识增强问答 LLMsasBrains PART02 质量大模型的构建路径 更新迭代 数据飞轮 问题归因 评测指标 部署应用 工具调用与执行 检索增强问答 端到端对话 模型训练 InstructionTuning Prompt设计 多任务能力 ContinuePretraining 语言模型 专业知识注入 清洗与增强 数据构建 结构化数据 历史数据沉淀 线上系统回流 非结构化数据 业务文档 质量知识 质量大模型的构建路径 训练任务:语言模型 继续预训练知识注入 训练材料:知识构建 质量域 知识来源 业务域 其他背景 切片 知识处理 聚类 数据增强 筛选 知识质量 清洗 数据分析 训练对象:开源模型底座 不完全列举 指令微调技能培训 关键问题:质量域中的许多任务都是以结构化数据为基础,如何用基于非结构化对话形式的大模型完成结构化数据任务?解法在于如何针对特定任务设计指令并进行微调 任务选取 数据获取 指令构建 微调 流程 两大类任务选取: 质量业务 知识问答 向模型提供基础的质量问答能力 特定质量任务执行 以端到端形式执行的质量任务,如测试用例生成等 两大类数据来源:基础知识 包括外部基础知识与内部的文档积累 任务数据 来源于真实场景的特定任务数据 指令构建技巧: 明确任务需求 清晰描述任务的推 理逻辑、执行步骤 格式规约 对格式进行严格规约,降低工程难度 指令泛化 增强鲁棒性 微调注意事项:数据分布 平衡各任务的数据分布,避免过拟合 训练成本 多卡训练、LoRA微调等,节省时间与显存成本 应用方式作为端到端Bot 以端到端对话形式执行质量任务 上下文学习 逻辑构建 1KangSYoonJYooSLargelanguagemodelsarefewshottestersExploringllmbasedgeneralbugreproductionC2023IEEEACM45thInternationalConferenceonSoftwareEngineeringICSEIEEE202323122323 2FakhourySChakrabortySMusuvathiMetalTowardsgeneratingfunctionallycorrectcodeeditsfromnaturallanguageissuedescriptionsJarXivpreprintarXiv2304038162023 应用方式作为工作流组件 大模型作为质量工作流当中的组件,为质量工具提供了丰富的泛化性和强大的生成能力,提升 了质量工具的能力上限。以一个测试账号查询工作流为例: 数据表信息 帮我找一个余额宝持仓为0的测试账号 数据源 基于LLM实现 NL2SQL SQL自动执行取数 大模型润色回答执行失败安抚与建议 好的,id为xxxx的测试账号余额宝持仓为0 大模型通过接受用户输入与数据表(表名、字段名称、字段描述、取值范围等)信息既可实现 NL2SQL,节省了小模型训练的成本 PART03 质量大模型在接口测试中的实践 接口测试的特点与难题 专业性 场景化 复杂性 对专家知识和经验要求高 需要结合特定业务逻辑 人工成本和时间成本较高 质量大模型应用校验点生成 输入 输 质量大模型 质量大模型应用校验点生成 Prompt组装 输入信息 任务所需的必要信息 参 入参 接口名称 推理步骤 根据专家经验总结的执行该任务所需的推理过程 撰写校验点列表 根据业务要求确定字段的取值范围和校验方式 识别参中的关键字段 规范要求 强调针对任务输格式、形式等规范的要求 每个校验点必须包含的特定字段 输必须遵循json格式 质量大模型应用业务知识问答 知识文档 用户query 爬取切片 知识分片 接口测试知识增强问答 帮我找一个风测修改接口 工具向量库 好的,风测修改的接口名称是,调用方式 嵌入模型 Query向量 向量检索 大模型回复 质量大模型应用工具执行 工作流开发 对话形式调用工具 工具集合工具1工具2 工具3 用户query FunctionCall 好的,执行结果是 帮我执行一个post请求,接口是,入参是 大模型 执行结果 参数解析、工具调度 工作流执行 回复大模型 PART04 未来展望 总结 1 质量大模型 产品内容上围绕质量大模型的提效 工作 2 垂类解决方案 产品设计上是一套较通用的垂直领域的 大模型解决方案 3 大模型行业赋能框架 算法设计上是一套通用的垂类领域大模 型提效框架 质量大模型技术趋势 浩如烟海的质量知识与业务经验 多样的质量任务 前置的问题发现 代码能力与问答能力的兼顾 THANKS

你可能感兴趣

hot

大模型在运维低容错场景下的应用实践探索 - 傅建新

信息技术
XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站2024-10-21
hot

去哪儿网接口自动化测试探索实践-李晓悦

信息技术
ArchSummit北京2022|全球架构师峰会2022-11-02
hot

陈磊-接口测试遇见大模型:难点,弯路与实践指南

信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17
hot

任志强-大模型Agent在AIOps运维场景的实践

信息技术
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13
hot

原玉娇-大模型在端到端交互测试的探索与实践

文化传媒
2024AI研发数字峰会AiDD北京站2024-11-17