热门搜索：

腾讯云TI平台的大模型精调解决方案

信息技术2024-06-12胡哲腾讯任***

AI智能总结

腾讯云TI平台的大模型精调解决方案由胡哲优图实验室的高级AI技术专家提出，针对大模型落地过程中的痛点，如大规模训练的不稳定性、资源利用率低、缺乏特定行业的知识以及国产化适应性需求，提供了全面而细致的解决方案。

解决方案亮点：

核心优势：

自研模型：腾讯云开发了混元大模型，拥有超千亿参数，具备全链路自主研发能力，能够提供包括混元大模型在内的多种行业大模型。这些模型通过行业数据精调，相较于通用大模型，能在特定行业任务中表现更佳。
- 行业大模型：在有行业数据支持的情况下，行业大模型能够以较少的训练资源达到与通用大模型相近的性能，特别是在阅读理解、行业数值计算、知识问答、文案生成、信息抽取、情感分析等领域展现出色性能。

大规模训练：

一站式精调流程：TI平台提供从模型选择、训练、评估、部署到应用的一站式服务，简化了大模型精调的步骤，用户只需关注核心任务，平台自动处理分布式训练、资源管理、模型发布等复杂环节。
- 稳定训练：平台采用自底向上的三层机制，确保在机器故障、网络/系统异常时能够快速迁移、驱逐异常POD并进行重新调度，同时支持断点续训，保障训练过程的稳定性。
- 高效开发：通过AI批量任务使用gang调度策略、GPU任务使用binpack调度策略以及拓扑感知调度，提高容器资源利用率，减少资源碎片，并支持虚拟GPU调度，提升开发效率。

自研加速：

Angel加速组件：该组件通过优化计算、通信和存储等关键环节，显著提升模型训练和推理速度，例如，AngelHCF和AngelPTM分别在推理速度和训练速度上实现显著加速，对比业界主流框架提升1.3倍和1倍。

国产化适配：

全生命周期支持：腾讯云TI平台提供从硬件服务器、操作系统到模型服务的全方位国产化支持，确保大模型开发全过程不受限于国外资源，符合国家政策要求。

实施案例：

传媒行业：提供针对性的精调解决方案，支持行业大模型训练，如金融、医疗、文旅等领域的专用模型。
落地案例：针对传媒、文旅、金融等不同行业客户，提供定制化的精调解决方案和服务，通过智能接口配置、输出样式定制、自动意图识别等功能，有效提升客户服务体验和效率。

通过上述解决方案，腾讯云TI平台旨在帮助企业快速、稳定、高效地实现大模型的精调和应用，解决行业特定需求，同时确保技术创新与国产化战略的双重目标。

腾讯云TI平台的大模型精调解决方案胡哲优图实验室高级AI技术专家大模型落地痛点TI大模型精调解决方TI精调的核心优势案例分享案行业知识、模型训练稳定性、资源利用率、国产化适配大模型精调全生命周期的方法论与全流程陪跑自研大模型、大规模预训练、自研加速、国产化适配大模型摘要;大模型问答大模型在业务场景落地的痛点大模型落地业务场景的痛点模型欠缺行业知识通用领域大模型百花齐放，但都不具备特定行业的独有知识，欠缺行业属性导致无法落地实际业务大规模训练不稳定大模型训练需耗费大量 GPU资源且训练周期长，对训练平台的稳定性、故障隔离性、自动容错性等底座能力，以及断点续训能力考验极大需提高资源利用率分布式训练需要高效的资源调度管理系统，减少节点资源碎片提高调度成功率；支持虚拟GPU调度提高容器资源利用率需国产化适配响应国家政策，摆脱国外资源限制，需要从硬件服务器芯片、操作系统、模型等多个层面完成国产化适配 TI的大模型精调解决方案 TI的一站式大模型精调解决方案 MaaS 传媒行业大模型精调解决方案政务大模型 TI-DataTruth数据标注平台客户专属大模型 TI平台传媒大模型技术底座平台&工具向量数据库高性能网络：自研星脉计算网络架构高性能计算集群HCC …… 教育大模型金融大模型文旅大模型太极Angel加速组件 TI-Matrix应用平台 TI-ONE训练平台行业大模型基础设施 TI对大模型开发全生命周期的一体化方法论模型选型训练共建部署应用数据评估应用场景资源评估资源采购环境搭建服务开通业务形态交付方案项目排期脱敏合规训练数据准备知识挖掘+增强数据清洗+切块向量库建设+维护训练平台搭建无监督训练有监督训练模型训练人工反馈强化学习训练框架加速模型评测性能评测效果评测模型管理模型注册模型发布服务发布推理框架加速推理服务部署内容安全应用联调需要客户深度参与 TI精调的核心优势 AngelHCF推理框架推理速度相比业界主流框架提升1.3倍 AngelPTM训练框架相比业界主流框架提升 1倍训练速度预训练超2万亿token语料优化预训练算法及策略精调及强化学习改进注意力机制开发思维链新算法核心优势1—自研模型：混元大模型四大核心能力创新大模型训练自研机器学习框架多轮对话知识增强逻辑推理内容创作超千亿参数规模（蒸馏出百亿级模型），全链路自主研发，从零训练自主创新代码子项混元 GPT-3.5 GPT-4 0 10203040506070 HumanEval分数 STEM子项混元 GPT-3.5 GPT-4 01020304050607080 Ceval-STEM 核心优势1—自研模型：混元大模型信通院测评模型开发模型能力共测试29个能力项综合评级当前最高分级共测试37个能力项综合评级级当前最高分腾讯混元大模型 VS 主流大模型 C-Eval MMLU AGlEval总集 AGlEval中文 AGlEval英文混元 GPT-3.5 GPT-4 高考题子项混元 GPT-3.5 GPT-4 0 10 20 30 40 50 数学子项混元 GPT-3.5 GPT-4 051015202530354045 AGlEval-数学 60 AGlEval-高考应用层舆情助手写作助手营销助手访谈助手客服助手... 核心优势1—自研模型：行业大模型大规模通用数据无监督：数T文本有监督：数亿条数据通用大模型 PT&SFT 行业大模型大规模行业数据无监督：百G文本有监督：数百万条数据传媒文旅金融医疗 …… 降低不同行业数据彼此干扰提升垂类任务性能大模型层金融行业大模型医疗行业大模型文旅行业大模型... 行业阅读理解行业数值计算行业知识问答行业文案生成行业信息抽取行业情感分析行业术语增强行业合规安全基础大模型平台层自研行业大模型训练支撑：TI-ONE训练平台核心优势1—自研模型：行业大模型在有行业数据精调的情况下：行业大模型（10亿参数）可以比通用大模型（千亿参数）用小得多的训练资源，训练后得到差不多性能的应用阅读理解API调用问答对生成新闻摘要核心优势2—大规模训练：简单 1.一键启动平台内置精调物料快速启动精调任务 2.训练监控实时监测资源利用率、训练指标 3.任务管理模型评估管理任务版本记录超参、指标快照 4.模型发布平台内置推理加速镜像快速部署服务 5.服务调用可视化网页、API接口调用模型服务最快仅需5步即可完成大模型精调落地核心优势2—大规模训练：稳定 TaskManger 3.断点续训节点发生故障时： •主动发现 •屏蔽节点 •自动扩容 •故障迁移 TrainOperator 网络/系统等异常时： •任务管理自动重启训练任务 •恢复历史checkpoint继续训练 2.异常POD驱逐重新调度节点/磁盘等突发故障时： •训练operator感知pod运行状态 •将异常pod重新调度到其他节点 •恢复训练任务 1.机器故障迁移 Node Node Node Node Node Node 云原生监控自底向上3层机制保障大模型稳定训练核心优势2—大规模训练：高效 1.提高容器对资源的利用率 •GPU任务使用拓扑感知调度，提升通信效率 •支持虚拟GPU调度（0.1-1.0卡）开发效率用户仅需聚焦训练任务本身，TI平台自动注入分布式训练网络通信配置、RDMA、网络拓扑、训练节点相关参数资源利用率问题排查效率支持一键登陆训练容器便捷查看日志、事件、监控 2.减少资源碎片，提高调度成功率 •AI批量任务使用gang调度策略（要么都成功，要么都失败） •GPU任务使用binpack调度策略（优先填满一个节点，避免多卡任务启动失败） 3.支持任务排队，合理分配调度资源管理任务队列，支持高优任务抢占低优任务核心优势3—自研加速：Angel三重优化 1.异步调度优化 CPU&GPU异步调用提高吞吐 2.显存优化缓存定长+池化，提升参数支持规模 3.计算优化 Attention及MLPBlock块算子融合优化 Add Layernorm FusedAddNorm Tensor QGemmKGemm VGemm FusedBatchGemm Bloom7B ChatGL 8.9example/s 行业方案太极Angel 19.1example/s 加速比2.14 行业方案 19.8example/s Bloom7B ChatGL 加速比1.37 17.7ms/token 行业方案太极Angel 12.9ms/token 行业方案太极Angel 30ms/token M Llama2 加速比1.7 加速比1.4 33.3example/s 太极Angel 行业方案 48.6example/s 太极Angel 66.8 example/s M Llama2 加速比2.4 行业方案太极Angel 加速比1.4 12.5ms/token 26ms/token 46ms/token 训练加速效果对比（系统吞吐，越大越好）推理加速效果对比（输🎧token速度，越小越好）核心优势4—国产化适配：全生命周期腾讯云TI平台训练任务可运行模型服务可部署预置大模型物料可运行信创芯片算力可分配信创芯片算力可调度底层软件信创容器平台信创数据库信创操作系统硬件服务器信创CPU芯片信创AI加速卡(NPU芯片）提供大模型开发全生命周期信创支持核心优势4—国产化适配：产品支持情况腾讯云TI平台支持以下模型在信创芯片算力上进行训练支持以下模型在信创芯片算力上进行服务部署开源大模型、自研行业大模型开源大模型、自研行业大模型支持在信创CPU芯片算力上使用LLM训练框架支持在信创CPU芯片算力上使用LLM推理框架已支持对以下信创芯片算力进行分配和调度鲲鹏系CPU+昇腾系NPU，鲲鹏系CPU，飞腾系CPU，海光系CPU 底层软件已支持基于以下信创容器平台部署TI平台腾讯TCS，灵雀云TKE，青云容器平台已支持基于以下信创数据库部署TI平台腾讯TDSQL 已支持基于以下信创操作系统部署TI平台腾讯TencentOS，银河麒麟核心优势4—国产化适配：获得多项信创认证案例分享落地案例：某传媒客户输入完整的长篇新闻文稿内容，基于大模型对原文的理解，重新组织用词造句，生成对主题内容的概括性描述。支持输出智能标题或智能摘要不同粒度的摘要结果。新闻智能标题与关键字通过自然语言处理方式，按照新闻语言风格，智能化地概括文本内容，可以用于智能标题的拟定。好水、好土产好粮。为了保护好赤水河的生态，仁怀近年来下大力气实现了工业核心区废水收集处理全覆盖，城镇生活污水处理率达95%，赤水和水质如今常年稳定在地表二类以上。守牢生态底线，在高质量发展中保障和发展民生。党的18大以来，在石漠化严重的山区，仁怀持续加大基础设施建设投入和退耕还林力度，帮助当地群众打造农旅一体的生态观光业，以创建省级生态乡镇13个，市级生态村寨127个。仁怀还下决心对城区最大的垃圾填埋场进行彻底改造和生态修复，为群众打造出一个鸟语花香的生态公园。近五年，仁怀绿化造林30余万亩，森林覆盖率达56.35%，城镇新增就业36524人，乡村两级医疗卫生机构规范化建设全覆盖，公通车总里程达3961公里…… • • 智能标题：仁怀:坚守生态底线提升民生福祉渐渐次（可生成多个标题）关键词：生态、保护、发展（可指定3-5个关键词）新闻智能摘要智能提取文章主题信息，生成指定字数的摘要内容。可以用于导语、简讯的输出。 • • 示例1：军事新闻俄罗斯国防部10号称，俄军打击了顿涅茨克地区、哈尔科夫地区的乌军指挥所以及存有美国提供的大量弹药的仓库等军事目标。 • • 示例2：民生新闻刚刚过去的国庆假期，各地丰富消费场景，扩大市场供给，持续升级的假日消费彰显中国市场巨大潜力的同时，也让百姓的生活品质不断提升。落地案例：某文旅客户客户诉求无需配置对话流程，大模型端到端解决业务问题精准解答涉及订单等接口场景,对机器人任务要求高复杂业务场景,无配置情况下无法通过机器人闭环解决问题极低配置运营人力有限,人工配置成本高人工有限,期望知识库运营上手简单,低成本投入产品示例 1.接口信息配置酒店的查询，预订，修改和取消 2.输出样式配置图文模版、气泡列表 3.对话体验方案价值任务完成率提升对话构建成本降低 ·在无多轮画布增加的前提下，突破效果天花板 ·聚焦场景是酒店业务，包括酒店的查询，预订、修改、查询，后期逐步覆盖机票、旅游等全栈场景。 ·自动判断意图和识别槽位，生成相应的API并自动调用，基于API的返回，自动生成拟人化的回复话术。 THANKS！感谢聆听

点击免费查看完整报告