腾讯云TI平台的 大模型精调解决方案 胡哲优图实验室高级AI技术专家 大模型落地痛点TI大模型精调解决方TI精调的核心优势案例分享 案 行业知识、模型训练稳定性、 资源利用率、国产化适配 大模型精调全生命周期的方法论与全流程陪跑 自研大模型、大规模预训练、自研加速、国产化适配 大模型摘要;大模型问答 大模型在业务场景落地的痛点 大模型落地业务场景的痛点 模型欠缺行业知识 通用领域大模型百花齐放, 但都不具备特定行业的独有知识,欠缺行业属性导 致无法落地实际业务 大规模训练不稳定 大模型训练需耗费大量 GPU资源且训练周期长,对训练平台的稳定性、故障隔离性、自动容错性等底座能力,以及断点续训 能力考验极大 需提高资源利用率 分布式训练需要高效的资 源调度管理系统,减少节点资源碎片提高调度成功 率;支持虚拟GPU调度提高容器资源利用率 需国产化适配 响应国家政策,摆脱国外 资源限制,需要从硬件服务器芯片、操作系统、模型等多个层面完成国产化 适配 TI的大模型精调解决方案 TI的一站式大模型精调解决方案 MaaS 传媒行业大模型精调解决方案 政务大模型 TI-DataTruth数据标注平台 客户专属大模型 TI平台 传媒大模型 技术底座 平台&工具 向量数据库 高性能网络:自研星脉计算网络架构 高性能计算集群HCC …… 教育大模型 金融大模型 文旅大模型 太极Angel加速组件 TI-Matrix应用平台 TI-ONE训练平台 行业大模型基础设施 TI对大模型开发全生命周期的一体化方法论 模型选型 训练共建 部署应用 数据评估 应用场景 资源评估 资源采购 环境搭建 服务开通 业务形态 交付方案 项目排期 脱敏合规 训练数据准备 知识挖掘+增强数据清洗+切块 向量库建设+维护 训练平台搭建 无监督训练 有监督训练 模型训练 人工反馈 强化学习 训练框架加速 模型评测 性能评测 效果评测 模型管理 模型注册 模型发布 服务发布 推理框架加速 推理服务部署 内容安全 应用联调 需要客户深度参与 TI精调的核心优势 AngelHCF推理框架 推理速度相比业界主 流框架提升1.3倍 AngelPTM训练框架 相比业界主流框架提升 1倍训练速度 预训练 超2万亿token语料优化预训练算法及策略 精调及强化学习 改进注意力机制开发思维链新算法 核心优势1—自研模型:混元大模型 四大 核心能力 创新 大模型训练 自研机器 学习框架 多轮对话 知识增强 逻辑推理 内容创作 超千亿参数规模(蒸馏出百亿级模型),全链路自主研发,从零训练自主创新 代码子项 混元 GPT-3.5 GPT-4 0 10203040506070 HumanEval分数 STEM子项 混元 GPT-3.5 GPT-4 01020304050607080 Ceval-STEM 核心优势1—自研模型:混元大模型 信通院测评 模型开发 模型能力 共测试29个能力项 综合评级 当前最高分 级 共测试37个能力项 综合评级级当前最高分 腾讯混元大模型 VS 主流大模型 C-Eval MMLU AGlEval总集 AGlEval中文 AGlEval英文 混元 GPT-3.5 GPT-4 高考题子项 混元 GPT-3.5 GPT-4 0 10 20 30 40 50 数学子项 混元 GPT-3.5 GPT-4 051015202530354045 AGlEval-数学 60 AGlEval-高考 应用层 舆情助手写作助手营销助手访谈助手客服助手... 核心优势1—自研模型:行业大模型 大规模通用数据 无监督:数T文本有监督:数亿条数据 通用 大模型 PT&SFT 行业 大模型 大规模行业数据 无监督:百G文本 有监督:数百万条数据 传媒 文旅金融医疗 …… 降低不同行业数据彼此干扰提升垂类任务性能 大模型层 金融行业大模型 医疗行业大模型文旅行业大模型... 行业阅读理解 行业数值计算行业知识问答行业文案生成 行业信息抽取 行业情感分析行业术语增强行业合规安全 基础大模型 平台层 自研行业大模型训练支撑:TI-ONE训练平台 核心优势1—自研模型:行业大模型 在有行业数据精调的情况下: 行业大模型(10亿参数)可以比通用大模型(千亿参数)用小得多的训练资源,训练后得到差不多性能的应用 阅读理解API调用 问答对生成新闻摘要 核心优势2—大规模训练:简单 1.一键启动 平台内置精调物料快速启动精调任务 2.训练监控 实时监测资源利用率、训练指标 3.任务管理模型评估 管理任务版本记录超参、指标快照 4.模型发布 平台内置推理加速镜像快速部署服务 5.服务调用 可视化网页、API接口调用模型服务 最快仅需5步即可完成大模型精调落地 核心优势2—大规模训练:稳定 TaskManger 3.断点续训 节点发生故障时: •主动发现 •屏蔽节点 •自动扩容 •故障迁移 TrainOperator 网络/系统等异常时: •任务管理自动重启训练任务 •恢复历史checkpoint继续训练 2.异常POD驱逐重新调度 节点/磁盘等突发故障时: •训练operator感知pod运行状态 •将异常pod重新调度到其他节点 •恢复训练任务 1.机器故障迁移 Node Node Node Node Node Node 云原生监控 自底向上3层机制保障大模型稳定训练 核心优势2—大规模训练:高效 1.提高容器对资源的利用率 •GPU任务使用拓扑感知调度,提升通信效率 •支持虚拟GPU调度(0.1-1.0卡) 开发效率 用户仅需聚焦训练任务本身,TI平台自 动注入分布式训练网络通信配置、RDMA、网络拓扑、训练节点相关参数 资源利用率 问题排查效率 支持一键登陆训练容器 便捷查看日志、事件、监控 2.减少资源碎片,提高调度成功率 •AI批量任务使用gang调度策略 (要么都成功,要么都失败) •GPU任务使用binpack调度策略 (优先填满一个节点,避免多卡任务启动失败) 3.支持任务排队,合理分配调度资源 管理任务队列,支持高优任务抢占低优任务 核心优势3—自研加速:Angel三重优化 1.异步调度优化 CPU&GPU异步调用提高吞吐 2.显存优化 缓存定长+池化,提升参数支持规模 3.计算优化 Attention及MLPBlock块算子融合优化 Add Layernorm FusedAddNorm Tensor QGemmKGemm VGemm FusedBatchGemm Bloom7B ChatGL 8.9example/s 行业方案 太极Angel 19.1example/s 加速比2.14 行业方案 19.8example/s Bloom7B ChatGL 加速比1.37 17.7ms/token 行业方案 太极Angel 12.9ms/token 行业方案 太极Angel 30ms/token M Llama2 加速比1.7 加速比1.4 33.3example/s 太极Angel 行业方案 48.6example/s 太极Angel 66.8 example/s M Llama2 加速比2.4 行业方案 太极Angel 加速比1.4 12.5ms/token 26ms/token 46ms/token 训练加速效果对比(系统吞吐,越大越好) 推理加速效果对比(输🎧token速度,越小越好) 核心优势4—国产化适配:全生命周期 腾讯云TI平台 训练任务可运行 模型服务可部署 预置大模型物料可运行 信创芯片算力可分配 信创芯片算力可调度 底层软件 信创容器平台 信创数据库 信创操作系统 硬件服务器 信创CPU芯片 信创AI加速卡(NPU芯片) 提供大模型开发全生命周期信创支持 核心优势4—国产化适配:产品支持情况 腾讯云TI平台 支持以下模型在信创芯片算力上进行训练支持以下模型在信创芯片算力上进行服务部署 开源大模型、自研行业大模型开源大模型、自研行业大模型 支持在信创CPU芯片算力上使用LLM训练框架支持在信创CPU芯片算力上使用LLM推理框架 已支持对以下信创芯片算力进行分配和调度 鲲鹏系CPU+昇腾系NPU,鲲鹏系CPU,飞腾系CPU,海光系CPU 底层软件 已支持基于以下信创容器平台部署TI平台 腾讯TCS,灵雀云TKE,青云容器平台 已支持基于以下信创数据库部署TI平台 腾讯TDSQL 已支持基于以下信创操作系统部署TI平台 腾讯TencentOS,银河麒麟 核心优势4—国产化适配:获得多项信创认证 案例分享 落地案例:某传媒客户 输入完整的长篇新闻文稿内容,基于大模型对原文的理解,重新组织用词造句,生成对主题内容的概括性描述。支持输出智能标题或智能摘要不同粒度的摘要结果。 新闻智能标题与关键字 通过自然语言处理方式,按照新闻语言风格,智能化地概括文本内容,可以用于智能标题的拟定。 好水、好土产好粮。为了保护好赤水河的生态,仁怀近年来下大力气实现了工业核心区废水收集处理全覆盖,城镇生活污水处理率达95%,赤水和水质如今常年稳定在地表二类以上。 守牢生态底线,在高质量发展中保障和发展民生。党的18大以来,在石漠化严重的山区,仁怀持续加大基础设施建设投入和退耕还林力度,帮助当地群众打造农旅一体的生态观光业,以创建省级生态乡镇13个,市级生态村寨127个。仁怀还下决心对城区最大的垃圾填埋场进行彻底改造和生态修复,为群众打造出一个鸟语花香的生态公园。近五年,仁怀绿化造林30余万亩,森林覆盖率达56.35%,城镇新增就业36524人,乡村两级医疗卫生机构规范化建设全覆盖,公通车总里程达3961公里…… • • 智能标题:仁怀:坚守生态底线提升民生福祉渐渐次(可生成多个标题) 关键词:生态、保护、发展(可指定3-5个关键词) 新闻智能摘要 智能提取文章主题信息,生成指定字数的摘要内容。可以用于导语、简讯的输出。 • • 示例1:军事新闻 俄罗斯国防部10号称,俄军打击了顿涅茨克地区、哈尔科夫地区的乌军指挥所以及存有美国提供的大量弹药的仓库等军事目标。 • • 示例2:民生新闻 刚刚过去的国庆假期,各地丰富消费场景,扩大市场供给,持续升级的假日消费彰显中国市场巨大潜力的同时,也让百姓的生活品质不断提升。 落地案例:某文旅客户 客户诉求 无需配置对话流程,大模型端到端解决业务问题 精准解答 涉及订单等接口场景,对机器人任务要求高 复杂业务场景,无配置情况下无法通过机器人闭环解决问题 极低配置 运营人力有限,人工配置成本高 人工有限,期望知识库运营上手简单,低成本投入 产品示例 1.接口信息配置 酒店的查询,预订, 修改和取消 2.输出样式配置 图文模版、气泡列表 3.对话体验 方案价值 任务完成率提升对话构建成本降低 ·在无多轮画布增加的前提下,突破效果天花板 ·聚焦场景是酒店业务,包括酒店的查询,预订、修改、查询,后期逐步覆盖机票、 旅游等全栈场景。 ·自动判断意图和识别槽位,生成相应的API并自动调用,基于API的返回,自动生成拟人化的回复话术。 THANKS! 感谢聆听