高性能计算集群HCC 产品介绍 2023.02 异构计算产品组 01 异构计算与业务挑战 背景介绍 腾讯云异构计算平台 多元化异构实例+领先的虚拟化技术+高性能加速框架+灵活的服务模式 硬件异构 GPU、FPGA、NPU,让异构硬件高效专用,发挥极致性能; 异构计算平台 软件同构 多元算子,软件框架调度层面寻求协同统一的解决方案 2 业务挑战--高性能计算场景对网络要求苛刻 网络时延导致计算节点空闲等待 增加GPU/计算节点≠提升对等算力收益 等待等待等待等待 算力 网络迟滞拖慢整体性能 理想 现实 GPU/计算节点数量 速度,一直都是高性能计算的核心,运算速度更快意味着一切繁复的运算和模拟会更快、更准确。高性能计算存在“木桶效应”,计算、存储、网络一旦出现瓶颈就会导致运算速度严重下降。VPC网络时延约40-60us,适用于存储数据拉取或在线请求首发。在多机并行计算场景相对乏力。 3 02 训练场景专用解决方案 方案全览 自动驾驶训练 支持终端车企、解决方案商客户,在自动驾驶目标检测、AI感知决策等模型训练需求 自然语言处理 支持泛互、出行、金融等客户在人机对话、智能客服、文本分析、情感分析等场景的训练需求 AIGC大模型训练 为企业通过AI生成创造文本、图像、音乐、3D交互内容等场景,提供大模型训练支持 科研计算 支持高校、研究院、药企等客 户,在AI制药、蛋白质仿真、分子动力学仿真等场景需求 ChatGPT的基础模型 模型分类 应用场景 参数规模 带宽需求 大型推荐系统 短视频、商品、图文推荐 千亿-万亿 800G-1.6T 多模态大模型 AIGC、数字人、以图搜文 300亿-千亿 400G-1.6T NLP语言模型 内容质量评估、语音识别、实时翻译、语音转文字 百亿 400G-800G CV类模型 自动驾驶、图像分类、人脸识别 十亿-百亿 100G-400G •视觉类模型参数在十亿~百亿参数,需求带宽约400G以下 •泛互行业需求模型参数在百亿~千亿规模,带宽需求约800G-1.6T Algorithm FrameworkLibrary K8s/调度器 高性能计算集群(HCC),面向大规模AI及高性能计算场景,广泛适用于自动驾驶、商业推荐系统、语音识别、图像识别、人脸识别、AI制药等人工智能模型训练场景。 AIGC大模型生成自动驾驶 A100/H800 产品关键特性 搭配高性能GPU:产品支持A100、A800及H800NvLinkGPU,提供强大算力低延时RDMA网络:节点互联网络低至2us,带宽支持800G-1.6TbpsGpuDirectRDMA:GPU计算数据无需绕行,跨机点对点直连 TACO训练加速套件:一键提升人工智能训练性能,差异化性能提升 自然语言处理 推荐系统 图像识别 材料仿真 8 为高性能计算业务提供极致集群性能与智能运营的计算网络基础设施 NLP 大模型 CV 大模型 推荐大模型 跨模态大模型 自研高性能网络架构 拓扑感知流量调度 高性能通信库TCCL 端到端 高网运营系统 集合通信性能加速 部署、验收 自研协议栈 端网协同自研协议TiTa 拥塞控制算法 高可用性 LC … LC 自研交换机 问题巡检、定位 自研高性能网络架构 LA LALALA … LALALALA Server GPU 流量亲和性组网 Server GPU Server GPU Server GPU 计算服务器 存储服务器 大模型训练框架 1.6Tbps带宽接入,800T交换容量流量亲和性FatTree组网 自研协议TiTa 端网协同自研协议栈 可编程RDMA拥塞控制算法 高性能集合通信库TCCL 拓扑感知流量亲和性调度负载路径优化 集合通信加速 端到端网络运营系统 一键式RDMA网络配置+网卡配置自动部署网络故障快速定界+快速自愈 实测性能:集合通信操作,网络有效负载率达78%;NLP万亿参数大模型训练,GPU集群算力线性度达83% 缩短42% 缩短78% 缩短42% GPT3on64GPU 16000 14000 12000 10000 8000 6000 4000 2000 0 5556.57 3203.55 687.68 400.69 7356.32 7369.5 7380.47 7384.19 2807.98 2812.86 2851.14 2857.67 1NIC(singleport)2NIC4NIC8NIC forward(ms)backward(ms)all_reduce(ms) time(ms) 1.6T大带宽接入:通信占比从35%3.7%流量亲和调度:通信性能随集群规模线性扩展,达80% 网络协议优化:AlltoAll通信性能在典型业务msgsize下提升30%TCCL通信库:AllReduce/AllGather/ReduceScatter提升40% 计算机视觉 自然语言处理 推荐系统 混合专家系统 大模型 训练框架 加速库 CUDA NCCL/TCCL cuBLAS cuDNN 集合通信库 计算函数库 Tensorflow/Pytorch/Mxnet/Caffe/CNTK/Megatron TACOKit加速套件 TACOKit集成腾讯自研加速技术,提升AI计算效率。 •产品形态:AI推理及训练加速组件 •使用方法:透明替换客户的应用框架,代码无需变更 •适用场景:AI计算 服务器 交换机 网卡 硬件架构 11 产品介绍 异构计算加速软件服务 产品能力 一键优化AI分布式训练及推理性能 TACOKit集成腾讯自研加速技术,提升AI计算效率。 •产品形态:AI推理及训练加速组件 •使用方法:透明替换客户的应用框架,代码无需变更 •适用场景:AI计算 业务痛点AI优化技术门槛高,降本难 •AI业务优化方案迭代快,优化部署改动大,门槛高 •AI计算集群规模大,运营成本高,存在降本诉求 •外部业务无法直接获取腾讯内部优秀实践 产品价值 帮助客户无感提升AI业务性能 产品能力: 客户A:自动驾驶训练客户B:推荐系统训练 •TACOTrain与TACOInfer提供全流程加速服务 •快速完成工业级训练或推理任务部署 通过自动驾驶模型编译优化及集合通讯优化,帮助客户感知训练系统性能提升25%。 助力客户使单个step的训练耗时从初始的约16秒下降到0.42秒。性能优化40+倍,成本降低高达100%+。 •无感接入,轻量部署 •极致性能,助力业务从数倍到数十倍的加速优化 •全场景支持CPU/GPU,各版本CUDA及Tensorflow/Pytorch/Onnx 12 针对星脉网络硬件架构定制设计 •为AI大模型训练提供更高效的网络通信性能 •基于开源NCCL代码扩展优化,替代客户软件栈中的NCCL库 线程管理接口 集合通信操作接口 Send/Receive接口 链路管理 设备节点管理 故障处理模块 PCIe设备 Sys/QPI PCIe CPU NIC GPU Net NVLink Host资源接口 计算机视觉 自然语言处理 推荐系统 混合专家系统 大模型 拓扑发现模块 Graph生成模块 算法性能建模选型 Tensorflow/Pytorch/Mxnet/Caffe/CNTK/Horovod (LightCC) cuBLAS NCCL/TCCL 交换机 CUDA cuDNN 集合通信库 计算函数库 Transport模块 IBverbs Socket 多路径 Proxy线程代理 训练框架 加速库 服务器 网卡 硬件架构 TCCL定制优化模块 双网口动态聚合优化全局Hash路由拓扑感知亲和性调度 40%AllReduce通信性能提升40%网络负载性能提升50%~80%LC流量减少 •可预期的网络性能:全局hash路由•拓扑感知亲和性调度:最小化流量绕行 … LA LA LA LA LA LA LA LA GPUServer1 GPUServer2 LA组 … GPUServer3 GPUServer4 LA组 LC LC GPUServer1 GPUServer2 GPUServer3 GPUServer4 40%网络负载性能提升跨LA组流量减少50%~80% 15 大模型预训练加速框架AngelPTM 用更少的资源以更快的速度训练更大的模型 社区方案 TACO方案 模型大小 103.5B 103.5B BatchPerGPU 16 24 单节点显存占用 31G 37G 单节点内存占用 1002G 666G SamplesPerSec 5.74 7.28 性能加速 1 1.27 16 GPU算力&显存利用率低的问题 •GPU资源价格昂贵、利用率低 •资源共享后使用不便、安全性问题资源共享带来QOS问题 •显存/算力隔离不准确,资源抢占干 扰,QoS无法保证,损坏故障隔离性 •资源切割不灵活 客户痛点 极致GPU利用率 强隔离QoS保障 解决方案 GPU算力共享技术 用户爆光请求 强隔离 支持显存和算力的严格隔离 灵活性 精细配置GPU算力占比和显存大小 兼容性 业务不重编、CUDA库不替换、业务无感 覆盖度 支持主流服务器卡T4/V100/A100/A10/A30 云上收益 高性能 GPU设备底层虚拟化,高效收敛,吞吐接近0损耗 在离线 在离线混部能力,GPU利用率压榨到极致 云原生 支持标准Kubernetes和NVIDIADocker PytorchPod PytorchPod PytorchPod … PytorchPod PytorchPod PytorchPod ½T4 ¼T4 qGPUcontainer GPUnode … … •在线业务独占使用GPU,利用率大多在40%以下 •线下IDC很难满足业务需求增长,线下采购周期长 Clustermanagement Autoscaling •线下IDC故障隔离性差,运维成本较高 GPU云服务器云硬盘 对象存储 日志服务CFSCOS 容器服务平台qGPU算力共享 Jobscheduler kubectl KubernetesAPI Console /int.com/aa~zz 负载均衡 K8SCluster 腾讯云 •节省一次性投资成本,随用随取,减少资源闲置 •CVM弹性扩容优势,涵盖空间、时间、大小和数量,可根据业务快速动态扩容 •TKEqGPU容器增加1-3倍业务部署密度,实现GPU多业务共享,算力厘米级,显存MB级隔离,大幅降低用卡成本 •节省运维成本,腾讯云上提供了TKE、qGPU、COS等各类产品组合使用 •年TCO成本节约50%+,利用率提升100% 18 qGPU是腾讯自研的新一代容器GPU虚拟化方案,保留了GPUManager方案的算力隔离等能力同时从根源上解决特殊场景下的GPU共享的干扰问题 UMD CUDA APP APP UMD CUDA spread binpack 高优Pod 低优Pod 低优Pod 低优Pod 高优Pod TKEqGPUScheduler 在线任务(高优) 离线任务(低优) K8SKubernetesscheduler集群调度算法 Kubernetes+GPUschedulerplugin GPU1 GPU0 APP CUDA UMD APP CUDA UMD pod0-1/nGPU pod1-¼GPU pod2-½GPU pod3-1GPU qGPUdriver虚拟化 提供“显存+算力+故障”隔离 支持“争抢+配额+弹性”调度策略 nvidiadriver GPU0 GPU1 GPU… GPU7 GPU/vGPU实例 灵活性:精细配置GPU算力占比和显存大小强隔离:支持显存和算力的严格隔离 qGPUcontainerruntime 在离线