热门搜索：

腾讯云 TI 平台大模型精调解决方案

2024-05-14腾讯米***

腾讯云TI平台的⼤模型精调解决⽅案 2024.6 腾讯云智能一、大模型在业务场景落地的痛点从“量变”到“质变”，AI进⼊⼤模型时代⼤模型落地业务场景的痛点模型欠缺行业知识通用领域大模型百花齐放，但都不具备特定行业的独有知识，欠缺行业属性导致无法落地实际业务大规模训练不稳定大模型训练需耗费大量GPU资源且训练周期长，对训练平台的稳定性、故障隔离性、自动容错性等底座能力，以及断点续训能力考验极大需提高资源利用率分布式训练需要高效的资源调度管理系统，减少节点资源碎片提高调度成功率；支持虚拟GPU调度提高容器资源利用率需国产化适配响应国家政策，摆脱国外资源限制，需要从硬件服务器芯片、操作系统、模型等多个层面完成国产化适配二、TI对大模型精调解决方案的思考 TI的⼀站式⼤模型精调解决⽅案大模型精调快速试一试： AI建模部署 精调训练：零代码一键部署大模型，网页问答体验推理效果低代码、灵活自定义两种精调模式自由选择数据训练调试部署应用数据构建数预置3大类精调数据据处理pipeline 中心数据标注 CV，文本类标注工具多种训练工具：具备周期调度能力的可视化建模，低门槛深度学习场景化工具，交互式代码开发工具，专业的通用任务调度工具训练分布式稳定训练：支持多机多卡大规模训练，故障自动重启续训坊工镜像制作：基于jupyter的高效自定义镜像制作工具训练指标监控：丰富的指标监控及告警，覆盖网络及GPU算力内置训练加速：全新升级Angel训练框架加速能力，性能提升30%精调数据配比训练：内置100+任务类型精调配比数据模内置推理加速：全新升级Angel推理加速能力，加型速比可达2倍部署大模型调用：统一的大模型调用API及体验工具，大幅缩短业务接入大模型能力周期自研混元大模型(私有化) 自研行业大模型 AI资产管理开源大模型 AI框架 从零训练自主创新的通用大模型 7b13b70b不同参数量级 金融/汽车/医疗，提升垂类任务性能 支持知识增强、实时更新知识库 Llama/baichuan/chatglm/Qwen等 全面接入主流开源模型 Pyspark，pytorch,vllm等通用训练框架 triton,vllm,sd,pmml等通用推理框架云服务器 公有云HCC高性能服务器，一键纳管 私有化服务器，灵活配置的算力配额资源管理分布式文件存储 公有云分布式文件存储CFS/Turbofs/Goosefsx 私有化NFS协议存储NAS/CSP 容器底座 公有云自带容器底座TKE 私有化自带容器底座TCS TI对⼤模型开发全⽣命周期的⼀体化⽅法论场景选型模型构建部署应用脱敏合规模型评测性能评测效果评测训练数据准备知识挖掘+增强数据清洗+切块向量库建设+维护模型管理模型注册模型发布服务发布推理框架加速推理服务部署资源采购业务形态环境搭建服务开通模型训练交付方案项目排期应用联调应用发布应用场景数据评估资源评估训练平台搭建大模型-无监督训练大模型-有监督训练深度学习训练机器学习训练训练框架加速 TI平台覆盖环节三、TI大模型精调解决方案的4大核心优势 •自研模型：混元大模型、行业大模型 •大规模训练：简单、稳定、高效 •自研加速：Angel框架三重优化 •国产化适配：全生命周期信创支持核⼼优势1—⾃研模型：混元⼤模型四大核心能力多轮对话知识增强逻辑推理内容创作创新大模型训练预训练超万亿token语料优化预训练算法及策略精调及强化学习改进注意力机制开发思维链新算法自研机器学习框架 AngelPTM训练框架训练速度相比业界主流框架提升倍 AngelHCF推理框架推理速度相比业界主流框架提升倍超千亿参数规模（蒸馏出百亿级模型），全链路⾃主研发，从零训练⾃主创新核⼼优势1—⾃研模型：混元⼤模型信通院测评模型开发模型能⼒代码⼦项 STEM⼦项共测试29个能⼒项综合评级级当前最⾼分共测试37个能⼒项综合评级级当前最⾼分混元GPT-3.5GPT-4 020406080 混元GPT-3.5GPT-4 020406080 腾讯混元大模型VS 主流大模型 HumanEval分数 Ceval-STEM 数学⼦项混元 GPT-3.5GPT-4 01020304050 AGlEval-数学⾼考题⼦项混元 GPT-3.5GPT-4 0102030405060 AGlEval-高考 C-EvalMMLUAGlEval总集AGlEval中文AGlEval英文混元GPT-3.5GPT-4 行业阅读理解行业数值计算行业知识问答行业文案生成行业信息抽取行业情感分析行业术语增强行业合规安全核⼼优势1—⾃研模型：⾏业⼤模型金融行业大模型医疗行业大模型文旅行业大模型... 大模型层舆情助手投顾助手投教助手投研助手客服助手... 应用层降低不同⾏业数据彼此⼲扰提升垂类任务性能基础大模型平台层自研行业大模型训练支撑：TI-ONE训练平台核⼼优势1—⾃研模型：⾏业⼤模型在有⾏业数据精调的情况下：⾏业⼤模型（10亿参数）可以⽐通⽤⼤模型（千亿参数）⽤⼩得多的训练资源，训练后得到差不多性能的应⽤核⼼优势2—⼤规模训练：简单 1.一键启动平台内置精调物料快速启动精调任务 2.训练监控实时监测资源利用率、训练指标 3.任务管理模型评估管理任务版本记录超参、指标快照 4.模型发布平台内置推理加速镜像快速部署服务 5.服务调用可视化网页、API接口调用模型服务最快仅需5步即可完成⼤模型精调落地核⼼优势2—⼤规模训练：稳定节点发生故障时： •主动发现 •屏蔽节点 •自动扩容 •故障迁移 TaskManger TrainOperator 3.断点续训 2.异常POD驱逐重新调度网络/系统等异常时： •任务管理自动重启训练任务 •恢复历史checkpoint继续训练 Node Node Node Node 1.机器故障迁移节点/磁盘等突发故障时： •训练operator感知pod运行状态 Node Node •将异常pod重新调度到其他节点 •恢复训练任务云原生监控⾃底向上3层机制保障⼤模型稳定训练核⼼优势2—⼤规模训练：⾼效 1.提⾼容器对资源的利⽤率 •GPU任务使用拓扑感知调度，提升通信效率 •支持虚拟GPU调度（0.1-1.0卡） 2.减少资源碎⽚，提⾼调度成功率利用资源•AI批量任务使用gang调度策略（要么都成功，要么都失败） •GPU任务使用binpack调度策略率（优先填满一个节点，避免多卡任务启动失败） 3.⽀持任务排队，合理分配调度资源管理任务队列，支持高优任务抢占低优任务用户仅需聚焦训练任务本身，TI平台自动注入分布式训练网络通信配置、RDMA、网络拓扑、训练节点相关参数开发效率排查问题支持一键登陆训练容器便捷查看日志、事件、监控效率核⼼优势2—⼤规模训练：⾼效全开源、易扩展、开箱即用 3大类数据处理pipeline100+任务类型的精调配比数据覆盖3类精调预训练通用场景：有监督-多轮问答-精调、有监督-单轮问答-精调、无监督-预训练覆盖12大类下的100+LLM应用场景：文本创作,开放式问答,基础语言能力,对话,角色扮演,智能体,思维链.阅读理解.文本理解,信息提取,知识挖掘,代码生成 pipline预置5大高质量样本处理环节：原始数据分析数据清洗数据去重Prompt优化训练格式生成每个任务类型均预置了腾讯自研精调配比数据：超过100w条预置配比数据开箱即用开源可扩展智能分配自动加载预置Notebook快速开始预置数据处理链代码根据样本量和任务类型分配配比数据精调任务无需额外配置加载配比数据核⼼优势2—⼤规模训练：⾼效问答应用三阶段评测，助力大模型应用满足业务效果 1轻量体验–效果无大偏差 •方式：边迭代边自测 •数据：用难例问题 •用户：算法人员难例问题评测任务模型checkpoint 输入问题生成答案继续训练开源评测集 2客观评测–初步判断效果 •方式：阶段性批量测 •数据：用开源评测集 •用户：算法人员模型checkpoint 一键勾选生成评测报告继续训练 3主观评测–反馈真实效果 •方式：发布前人工测 •数据：用难例+自定义问题 •用户：业务人员难例问题自定义问题生成结果推理任务自动合并人工标注模型结果打分反馈模型效果核⼼优势3—⾃研加速：Angel三重优化⽀持更多模型，实现更⾼加速⽐训练任务可运行模型服务可部署预置大模型物料可运行信创芯片算力可分配信创芯片算力可调度信创容器平台信创数据库信创操作系统核⼼优势4—国产化适配：全⽣命周期腾讯云TI平台底层软件信创CPU芯片信创AI加速卡(NPU芯片）硬件服务器提供⼤模型开发全⽣命周期信创⽀持核⼼优势4—国产化适配：产品⽀持情况支持以下模型在信创芯片算力上进行训练开源大模型、自研行业大模型支持以下模型在信创芯片算力上进行服务部署开源大模型、自研行业大模型持在信创CPU芯片算力上使用LLM训练框架支持在信创CPU芯片算力上使用LLM推理框架支腾讯云TI平台已支持对以下信创芯片算力进行分配和调度鲲鹏系CPU+昇腾系NPU，鲲鹏系CPU，飞腾系CPU，海光系CPU 已支持基于以下信创容器平台部署TI平台腾讯TCS，灵雀云TKE，青云容器平台已支持基于以下信创数据库部署TI平台腾讯TDSQL 已支持基于以下信创操作系统部署TI平台腾讯TencentOS，银河麒麟底层软件核⼼优势4—国产化适配：获得多项信创认证四、TI大模型精调的具体产品能力精调产品能⼒全局视图⽤户路径⼀：快速试⼀试选型基底模型 0.一键部署大模型平台内置20+开源大模型、自研大模型支持一键部署 0.模型效果测试快速体验、测试模型效果，选型适合业务的基底模型⽤户路径⼆：⾃定义数据精调基底模型落地业务 1.训练数据自定义训练数据上传、查看、管理 2.1平台内置大模型平台已内置大模型文件和配套训练代码 2.2上传自定义大模型或用户导入自己的大模型文件和训练代码 4.启动训练任务定义模型超参、算力资源 7.推理镜像平台内置统一LLM推理加速镜像8.模型服务部署模型，页面/API接口调用模型服务 3.训练镜像平台内置统一LLM训练加速镜像，适配大多数LLM大模型 5.训练任务监控实时监控训练指标、资源利用率 6.产出模型输出checkpoint支持模型评估 0.⼀键部署⼤模型经TI算法团队调研分析，TI内置了⽬前在多个开源数据集C-Eval、MMLU等上取得较好评测指标的开源⼤模型：llama、baichuan、chatglm、bloom等。且平台会持续跟进开源⼤模型升级情况更新产品版本。 20+模型模型卡片列表 0.⼀键部署⼤模型平台内置了⼤模型参数⽂件、推理脚本、推理镜像等部署依赖物料，⽤户只需额外指定推理所需算⼒资源，即可⼀键部署⼤模型 1.模型详情页面，部署入口：新建在线服务2.部署配置参数页仅需指定推理资源 3.在线服务列表页：查看服务运行状态建议推理资源配置不低于：模型参数 CPU GPU 7b 12C44G A10*1 13b 16C96G A100*1 0.模型效果测试部署服务成功运⾏后： •提供页⾯问答的形式，供⽤户快速体验模型效果 •提供http接⼝调⽤，供⽤户批量测试业务数据推理结果模型服务在线体验页面问答接口调用指南从众多⼤模型中，快速选型合适的基底模型，⽤于后续精调任务 1.训练数据 1数据来源2数据格式 •⽀持对接10+种来源的训练数据 •训练任务可直接挂载⽤户数据源，⽆需转存，节省存储空

点击免费查看完整报告

你可能感兴趣

腾讯云 TI 平台大模型精调解决方案

你可能感兴趣

腾讯云TI平台的大模型精调解决方案

【腾讯云MaaS发布会】国金计算机腾讯云通过TI平台打造大模型精

互联网行业周报（23年第25周）：腾讯云发布行业大模型解决方案，6月游戏版号下发

【盘中宝】大模型横空出世，该领域有望迎来奇点，诸多企业推出自己的大模型解决方案，这家公司针对该领域企业研发的云端服务，提供算力底层基础设施和运维平台-20240321

【点金互动易】 AlKimi 这家公司核心产品可对算力调度、调优进行观测分析，在一体化数据模型等积累了大量实践;这家公司一站式AI应用平台支持多种大模型的接入与纳管，AIGC相关技术应用已产生收入