腾讯云TI平台的 ⼤模型精调解决⽅案 2024.6 腾讯云智能 一、大模型在业务场景落地的痛点 从“量变”到“质变”,AI进⼊⼤模型时代 ⼤模型落地业务场景的痛点 模型欠缺行业知识 通用领域大模型百花齐放,但都不具备特定行业的独有知识,欠缺行业属性导致无法落地实际业务 大规模训练不稳定 大模型训练需耗费大量GPU资源且训练周期长,对训练平台的稳定性、故障隔离性、自动容错性等底座能力,以及断点续训能力考验极大 需提高资源利用率 分布式训练需要高效的资源调度管理系统,减少节点资源碎片提高调度成功率;支持虚拟GPU调度提高容器资源利用率 需国产化适配 响应国家政策,摆脱国外资源限制,需要从硬件服务器芯片、操作系统、模型等多个层面完成国产化适配 二、TI对大模型精调解决方案的思考 TI的⼀站式⼤模型精调解决⽅案 大模型精调快速试一试: AI建模部署 精调训练: 零代码一键部署大模型,网页问答体验推理效果低代码、灵活自定义两种精调模式自由选择 数据训练调试部署应用 数据构建数预置3大类精调数据据处理pipeline 中 心数据标注 CV,文本类标注工具 多种训练工具:具备周期调度能力的可视化建模,低门槛深度学习场景化工具,交互式代码开发工具,专业的通用任务调度工具 训 练分布式稳定训练:支持多机多卡大规模训练,故障自动重启续训 坊 工镜像制作:基于jupyter的高效自定义镜像制作工具 训练指标监控:丰富的指标监控及告警,覆盖网络及GPU算力 内置训练加速:全新升级Angel训练框架加速能力,性能提升30%精调数据配比训练:内置100+任务类型精调配比数据 模内置推理加速:全新升级Angel推理加速能力,加 型速比可达2倍 部 署大模型调用:统一的大模型调用API及体验工具,大幅缩短业务接入大模型能力周期 自研混元大模型(私有化) 自研行业大模型 AI资产管理 开源大模型 AI框架 从零训练自主创新的通用大模型 7b13b70b不同参数量级 金融/汽车/医疗,提升垂类任务性能 支持知识增强、实时更新知识库 Llama/baichuan/chatglm/Qwen等 全面接入主流开源模型 Pyspark,pytorch,vllm等通用训练框架 triton,vllm,sd,pmml等通用推理框架 云服务器 公有云HCC高性能服务器,一键纳管 私有化服务器,灵活配置的算力配额 资源管理 分布式文件存储 公有云分布式文件存储CFS/Turbofs/Goosefsx 私有化NFS协议存储NAS/CSP 容器底座 公有云自带容器底座TKE 私有化自带容器底座TCS TI对⼤模型开发全⽣命周期的⼀体化⽅法论 场景选型模型构建部署应用 脱敏合规 模型评测 性能评测效果评测 训练数据准备 知识挖掘+增强数据清洗+切块向量库建设+维护 模型管理 模型注册模型发布 服务发布 推理框架加速推理服务部署 资源采购 业务形态 环境搭建服务开通 模型训练 交付方案项目排期 应用联调应用发布 应用场景 数据评估 资源评估 训练平台搭建 大模型-无监督训练大模型-有监督训练深度学习训练 机器学习训练 训练框架加速 TI平台覆盖环节 三、TI大模型精调解决方案的4大核心优势 •自研模型:混元大模型、行业大模型 •大规模训练:简单、稳定、高效 •自研加速:Angel框架三重优化 •国产化适配:全生命周期信创支持 核⼼优势1—⾃研模型:混元⼤模型 四大核心能力 多轮对话知识增强逻辑推理内容创作 创新 大模型训练 预训练 超万亿token语料优化预训练算法及策略 精调及强化学习 改进注意力机制开发思维链新算法 自研机器学习框架 AngelPTM训练框架 训练速度相比业界主流框架提升倍 AngelHCF推理框架 推理速度相比业界主流框架提升倍 超千亿参数规模(蒸馏出百亿级模型),全链路⾃主研发,从零训练⾃主创新 核⼼优势1—⾃研模型:混元⼤模型 信通院测评 模型开发 模型能⼒ 代码⼦项 STEM⼦项 共测试29个能⼒项综合评级级当前最⾼分 共测试37个能⼒项综合评级级当前最⾼分 混元GPT-3.5GPT-4 020406080 混元GPT-3.5GPT-4 020406080 腾讯混元大模型VS 主流大模型 HumanEval分数 Ceval-STEM 数学⼦项 混元 GPT-3.5GPT-4 01020304050 AGlEval-数学 ⾼考题⼦项 混元 GPT-3.5GPT-4 0102030405060 AGlEval-高考 C-EvalMMLUAGlEval总集AGlEval中文AGlEval英文 混元GPT-3.5GPT-4 行业阅读理解行业数值计算行业知识问答行业文案生成 行业信息抽取行业情感分析行业术语增强行业合规安全 核⼼优势1—⾃研模型:⾏业⼤模型 金融行业大模型医疗行业大模型文旅行业大模型... 大模型层 舆情助手投顾助手投教助手投研助手客服助手... 应用层 降低不同⾏业数据彼此⼲扰提升垂类任务性能 基础大模型 平台层 自研行业大模型训练支撑:TI-ONE训练平台 核⼼优势1—⾃研模型:⾏业⼤模型 在有⾏业数据精调的情况下: ⾏业⼤模型(10亿参数)可以⽐通⽤⼤模型(千亿参数)⽤⼩得多的训练资源,训练后得到差不多性能的应⽤ 核⼼优势2—⼤规模训练:简单 1.一键启动 平台内置精调物料快速启动精调任务 2.训练监控 实时监测资源利用率、训练指标 3.任务管理模型评估 管理任务版本记录超参、指标快照 4.模型发布 平台内置推理加速镜像快速部署服务 5.服务调用 可视化网页、API接口调用模型服务 最快仅需5步即可完成 ⼤模型精调落地 核⼼优势2—⼤规模训练:稳定 节点发生故障时: •主动发现 •屏蔽节点 •自动扩容 •故障迁移 TaskManger TrainOperator 3.断点续训 2.异常POD驱逐重新调度 网络/系统等异常时: •任务管理自动重启训练任务 •恢复历史checkpoint继续训练 Node Node Node Node 1.机器故障迁移 节点/磁盘等突发故障时: •训练operator感知pod运行状态 Node Node •将异常pod重新调度到其他节点 •恢复训练任务 云原生监控 ⾃底向上3层机制保障⼤模型稳定训练 核⼼优势2—⼤规模训练:⾼效 1.提⾼容器对资源的利⽤率 •GPU任务使用拓扑感知调度,提升通信效率 •支持虚拟GPU调度(0.1-1.0卡) 2.减少资源碎⽚,提⾼调度成功率 利用 资源•AI批量任务使用gang调度策略 (要么都成功,要么都失败) •GPU任务使用binpack调度策略 率(优先填满一个节点,避免多卡任务启动失败) 3.⽀持任务排队,合理分配调度资源 管理任务队列,支持高优任务抢占低优任务 用户仅需聚焦训练任务本身,TI平台自动注入分布式训练网络通信配置、RDMA、网络拓扑、训练节点相关参数 开发 效率 排查 问题 支持一键登陆训练容器 便捷查看日志、事件、监控 效率 核⼼优势2—⼤规模训练:⾼效 全开源、易扩展、开箱即用 3大类数据处理pipeline100+任务类型的精调配比数据 覆盖3类精调预训练通用场景:有监督-多轮问答-精调、 有监督-单轮问答-精调、无监督-预训练 覆盖12大类下的100+LLM应用场景: 文本创作,开放式问答,基础语言能力,对话,角色扮演,智能体,思维链.阅读理解.文本理解,信息提取,知识挖掘,代码生成 pipline预置5大高质量样本处理环节: 原始数据分析数据清洗数据去重Prompt优化训练格式生成 每个任务类型均预置了腾讯自研精调配比数据:超过100w条预置配比数据 开箱即用 开源可扩展 智能分配自动加载 预置Notebook快速开始 预置数据处理链代码 根据样本量和任务类型分配配比数据 精调任务无需额外配置加载配比数据 核⼼优势2—⼤规模训练:⾼效 问答应用 三阶段评测,助力大模型应用满足业务效果 1轻量体验–效果无大偏差 •方式:边迭代边自测 •数据:用难例问题 •用户:算法人员 难例问题 评测任务 模型checkpoint 输入问题 生成答案 继续训练 开源评测集 2客观评测–初步判断效果 •方式:阶段性批量测 •数据:用开源评测集 •用户:算法人员 模型checkpoint 一键勾选 生成评测报告 继续训练 3主观评测–反馈真实效果 •方式:发布前人工测 •数据:用难例+自定义问题 •用户:业务人员 难例问题 自定义问题 生成结果 推理任务 自动合并 人工标注 模型 结果打分 反馈模型效果 核⼼优势3—⾃研加速:Angel三重优化 ⽀持更多模型,实现更⾼加速⽐ 训练任务可运行 模型服务可部署 预置大模型物料可运行 信创芯片算力可分配 信创芯片算力可调度 信创容器平台 信创数据库 信创操作系统 核⼼优势4—国产化适配:全⽣命周期 腾讯云TI平台 底层软件 信创CPU芯片信创AI加速卡(NPU芯片) 硬件服务器 提供⼤模型开发全⽣命周期信创⽀持 核⼼优势4—国产化适配:产品⽀持情况 支持以下模型在信创芯片算力上进行训练 开源大模型、自研行业大模型 支持以下模型在信创芯片算力上进行服务部署开源大模型、自研行业大模型 持在信创CPU芯片算力上使用LLM训练框架 支持在信创CPU芯片算力上使用LLM推理框架 支 腾讯云TI平台 已支持对以下信创芯片算力进行分配和调度 鲲鹏系CPU+昇腾系NPU,鲲鹏系CPU,飞腾系CPU,海光系CPU 已支持基于以下信创容器平台部署TI平台 腾讯TCS,灵雀云TKE,青云容器平台 已支持基于以下信创数据库部署TI平台 腾讯TDSQL 已支持基于以下信创操作系统部署TI平台 腾讯TencentOS,银河麒麟 底层软件 核⼼优势4—国产化适配:获得多项信创认证 四、TI大模型精调的具体产品能力 精调产品能⼒全局视图 ⽤户路径⼀:快速试⼀试选型基底模型 0.一键部署大模型 平台内置20+开源大模型、 自研大模型支持一键部署 0.模型效果测试 快速体验、测试模型效果, 选型适合业务的基底模型 ⽤户路径⼆:⾃定义数据精调基底模型落地业务 1.训练数据 自定义训练数据上传、查看、管理 2.1平台内置大模型 平台已内置大模型文件和配套训练代码 2.2上传自定义大模型或用户导入自己的大模 型文件和训练代码 4.启动训练任务 定义模型超参、算力资源 7.推理镜像 平台内置统一LLM推理 加速镜像8.模型服务 部署模型,页面/API接口调用模型服务 3.训练镜像 平台内置统一LLM训练加速镜像,适配大多数LLM大模型 5.训练任务监控 实时监控训练指标、资源利用率 6.产出模型 输出checkpoint支持模型评估 0.⼀键部署⼤模型 经TI算法团队调研分析,TI内置了⽬前在多个开源数据集C-Eval、MMLU等上取得较好评测指标的开源⼤模型:llama、baichuan、chatglm、bloom等。且平台会持续跟进开源⼤模型升级情况更新产品版本。 20+模型 模型卡片列表 0.⼀键部署⼤模型 平台内置了⼤模型参数⽂件、推理脚本、推理镜像等部署依赖物料,⽤户只需额外指定推理所需算⼒资源,即可⼀键部署⼤模型 1.模型详情页面,部署入口:新建在线服务2.部署配置参数页 仅需指定推理资源 3.在线服务列表页:查看服务运行状态 建议推理资源配置不低于: 模型参数 CPU GPU 7b 12C44G A10*1 13b 16C96G A100*1 0.模型效果测试 部署服务成功运⾏后: •提供页⾯问答的形式,供⽤户快速体验模型效果 •提供http接⼝调⽤,供⽤户批量测试业务数据推理结果 模型服务在线体验页面问答接口调用指南 从众多⼤模型中,快速选型合适的基底模型,⽤于后续精调任务 1.训练数据 1数据来源2数据格式 •⽀持对接10+种来源的训练数据 •训练任务可直接挂载⽤户数据源,⽆需转存,节省存储空