您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[趋动科技]:OrionX AI算力资源池化解决方案技术白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

OrionX AI算力资源池化解决方案技术白皮书

OrionX AI算力资源池化解决方案技术白皮书

OrionXAI算力资源池化解决方案技术白皮书 发布时间:2023年9月 版权所有©北京趋动科技有限公司2023。保留一切权力。 非经本公司许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明 本文档提及的商标为北京趋动科技有限公司的商标。 免责声明 本文档可能含有预测信息。由于实践中存在很多不确定因素,可能导致实际结果与预测信息存在差别。因此,本文档的信息仅供参考,不构成任何要约和承诺。趋动可能不经通知即修改本文档信息,恕不另行通知。 联系我们 电话:010-62560919 邮箱:BD@virtaitech.com 地址:北京市海淀区中关村大街1号海龙大厦10层1022 目录 1引言1 2GPU资源池化技术的演进2 3OrionX产品概述3 4OrionX产品优势4 5OrionX软件架构5 5.1OrionX的逻辑架构5 5.2OrionX的功能组件6 5.2.1OrionXController(OC)6 5.2.2OrionXServerService(OSS)6 5.2.3OrionXClientRuntime(OCRT)7 5.2.4OrionXGUI(OG)7 5.3OrionX组件间通信7 5.3.1管理平面8 5.3.2数据平面8 6部署形态10 6.1OrionX与容器云平台集成10 6.2OrionX与Kubernetes集成11 6.3OrionX与KVM集成11 6.4OrionX与VMware集成12 7OrionX应用场景14 7.1OrionX支持大模型场景的典型应用14 7.1.1通过“化零为整”功能支持训练14 7.1.2通过“隔空取物”功能支持训练15 7.2OrionX支持小模型场景的典型应用16 7.2.1通过“化整为零”功能支持推理16 7.2.2通过“隔空取物”功能支持推理17 7.3OrionX支持大/小模型场景的典型应用18 7.3.1通过“随需应变”功能支持训练/推理18 7.3.2通过“任务队列”功能支持训练/推理任务自动排队19 7.3.3通过“抢占”功能支持任务抢占资源20 7.3.4通过“显存超分”功能支持多任务叠加常驻21 7.3.5通过“双类资源池”功能支持物理/虚拟切换22 7.3.6通过“热迁移”功能支持AI任务平滑迁移23 7.3.7通过“多Arch”架构可同时支持AI计算与图形渲染25 7.4OrionX支持多元异构算力芯片28 8性能测试30 8.1测试环境30 8.2测试结果31 9兼容性列表33 图表目录 图表1-1全球人工智能市场规模走势图1 图表2-1GPU资源池化技术演进图2 图表3-1ORIONX架构图3 图表5-1ORIONX逻辑架构图5 图表5-2管理平面逻辑结构图8 图表5-3数据平面逻辑结构图9 图表6-1ORIONX与容器云平台集成10 图表6-2ORIONX和KUBERNETES集成11 图表6-3ORIONX和KVM集成12 图表6-5ORIONX和VMWARE集成13 图表7-1通过化零为整功能支持训练15 图表7-2通过隔空取物功能支持训练16 图表7-3通过化整为零功能支持推理17 图表7-4通过隔空取物功能支持推理18 图表7-5通过随需应变功能支持训练/推理19 图表8-1模型推理测试结果31 图表8-2模型训练测试结果32 1引言 当下,全球各国都在加速人工智能布局,将其作为战略性技术之一。作为较早发布人工智能战略的国家,中国政府将人工智能技术视为产业变革的核心力量,人工智能不仅是技术创新,更是推动经济发展、社会进步、行业创新的重要驱动力。“十四五”规划纲要更是将新一代人工智能作为要攻关的七大前沿领域之一,鼓励加速人工智能前沿基础理论突破、专用芯片研发、深度学习框架等开源算法平台构建,促进学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新,加速人工智能与诸如大数据、物联网、边缘计算等数字信息技术的融合发展,促进产业优化升级、生产力整体跃升。 德勤在2020上半年发布的《全球人工智能发展白皮书》预测数据表明:2025年世界人工智能市场将超过6万亿美元;中国人工智能核心产业规模到2020年将增长至1600亿元,带动相关产业规模超过一万亿元。 图表1-1全球人工智能市场规模走势图 作为AI市场中的重要组成,以GPU、FPGA等为主的AI加速器市场发展也随之水涨船高。根据IDC中国加速计算市场报告,预计2021年人工智能加速服务器市场规模将达到56.9 亿美元,相比2020年增长61.6%,到2025年,中国人工智能加速服务器市场将达到108.6 亿美元,其五年复合增长率为25.3%。 与此同时,由于缺乏高效经济的AI算力资源池化解决方案,导致绝大部分企业只能独占式地使用昂贵的AI算力资源,带来居高不下的AI算力使用成本;由于缺少对异构算力硬件支持,用户不得不修改AI应用以适应不同厂商的AI算力硬件。这会加剧AI应用开发部署复杂性、提高AI算力投入成本并导致供应商锁定。 2GPU资源池化技术的演进 GPU资源池化技术从初期的简单虚拟化,到资源池化,经历了四个技术演进阶段。 简单虚拟化。将物理GPU按照2的N次方,切分成多个固定大小的vGPU(VirtualGPU,虚拟GPU),每个vGPU的算力和显存相等。实践证明,不同的AI模型对于算力、显存资源的需求是不同的。所以,这样的切分方式,并不能满足AI模型多样化的需求。 任意虚拟化。将物理GPU按照算力和显存两个维度,自定义切分,获得满足AI应用个性化需求的vGPU。 远程调用。AI应用与物理GPU服务器分离部署,允许通过高性能网络远程调用GPU资源。这样可以实现AI应用与物理GPU资源剥离,AI应用可以部署在私有云的任意位置,只需要网络可达,即可调用GPU资源。 资源池化。形成GPU资源池后,需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时,也需要提供北向API,与数据中心级的资源调度平台对接,让用户在单一界面,就可以调度包括vGPU在内的数据中心内的各类资源。 图表2-1GPU资源池化技术演进图 3OrionX产品概述 趋动科技的OrionX(猎户座)AI算力资源池化解决方案已经实现了上述四个阶段的技术功能,可以为用户提供GPU资源池化的整体解决方案。 OrionX帮助客户构建数据中心级AI算力资源池,使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器。OrionX不但能够帮助用户提高AI算力资源利用率,而且可以极大便利用户AI应用的部署。 图表3-1OrionX架构图 OrionX通过软件定义AI算力,颠覆了原有的AI应用直接调用物理GPU的架构,增加软件层,将AI应用与物理GPU解耦合。AI应用调用逻辑的vGPU,再由OrionX将vGPU需求匹配到具体的物理GPU。OrionX架构实现了GPU资源池化,让用户高效、智能、灵活地使用GPU资源,达到了降本增效的目的。 4OrionX产品优势 OrionX通过构建GPU资源池,让企业内的AI用户共享数据中心内所有服务器上的GPU算力。AI开发人员不必再关心底层资源状况,专注于更有价值的业务层面,让应用开发变得更加便捷。OrionX产品有如下优势: 提高利用率 o支持将GPU切片为任意大小的vGPU,从而允许多AI负载并行运行,提高物理GPU利用率。 o提高GPU综合利用率多达3-10倍,1张卡相当于起到N张卡的效果,真正做到昂贵算力平民化。 高性能 o相比于物理GPU,OrionX本地vGPU性能损耗几乎为零,远程vGPU性能损耗小于2%。 ovGPU资源隔离,并行用户无资源互扰。 轻松弹性扩展 o支持从单台到整个数据中心GPU服务器纳管,轻松实现GPU资源池的横向扩展。 o全分布式部署,通过RDMA(IB/RoCE)或TCP/IP网络连接各个节点,实现资源池弹性扩展。 灵活调度 o支持AI负载与GPU资源分离部署,更加高效合理地使用GPU资源。 oCPU与GPU资源解耦合,两种服务器分开购买、按需升级、灵活调度,有助于最大化数据中心基础设施价值。 全局管理 o提供GPU资源管理调度策略。 oGPU全局资源池性能监控,为运维人员提供直观的资源利用率等信息。 对AI开发人员友好 o一键解决AI开发人员面临的训练模型中GPU/CPU配比和多机多卡模型拆分问题,为算法工程师节省大量宝贵时间。 5OrionX软件架构 5.1OrionX的逻辑架构 一个典型的OrionXGPU资源池的逻辑架构中包含了OrionXController(OC)、OrionXServerService(OSS)、OrionXClientRuntime(OCRT)、和OrionXGUI(OG)等功能组件。 OrionX的各功能组件可以根据用户环境需求被部署在单服务器上,也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中,各功能组件可以通过多种类型的网络建立连接,从而把数据中心的GPU资源管理起来,形成一种可以被全局共享的计算资源,对AI应用提供可远程访问的、可灵活切分的、可聚合的弹性GPU算力。OrionX的逻辑架构如下图所示。 图表5-1OrionX逻辑架构图 CUDA(ComputeUnifiedDeviceArchitecture)是由Nvidia公司定义且公开推广、维护的一种GPU编程接口。从2007年推出之后,经过十几年生态培育,已经成为GPU编程的一个事实标准。大部分流行的AI框架,例如TensorFlow、PyTorch、MXNet和PaddlePaddle都是基于CUDA编程接口开发。 OrionX在管理物理GPU之后,通过模拟CUDA标准接口,为各种AI应用提供一个与NvidiaCUDASDK接口功能一致的运行环境,从而使得AI应用透明无感知地运行在OrionXGPU资源池之上。OrionX不仅在单服务器上模拟了CUDA标准接口,并且通过分布式部署各功能组件,能够提供分布式的CUDA运行环境。 5.2OrionX的功能组件 5.2.1OrionXController(OC) OrionXController是GPU资源池的核心管理调度模块,其他所有OrionX的功能组件都直接或者间接通过网络连接到OrionXController,并与其保持信息同步。为了实现OrionXGPU资源池的统一管理以及资源调度,节点IP地址、物理GPU信息、虚拟GPU信息以及应用任务信息等都会汇总至该组件。 一个OrionXGPU资源池可以只部署一个OrionXController。为了提高OrionX的可靠性,可以进行2+1冗余备份。OrionXController提供如下功能: 各个分布式功能组件的服务注册、服务发现功能。 弹性虚拟GPU的调度分配功能。 多副本高可用的元数据存储和管理。 License管理。 提供运维所需要的各种RestAPI。 5.2.2OrionXServerService(OSS) OrionXServerService发现并管理物理节点上的GPU资源,同时把物理GPU的计算能力通过OrionX的高性能私有协议提供给数据中心内的各个物理节点,以及各个物理节点上的虚拟机、容器。 OrionXServerService部署在OrionX资源池内的每一个节点上,包括GPU节点和应用所在的节点。OrionXServerService提供如下功能: 发现和管理物理GPU资源。 把物理GPU资源抽象成弹性的vGPU。 执行AI应用的GPU计算任务。 支持虚拟机、容器的网络隔离。 5.2.3OrionXClientRuntime(OCRT) OrionXClientRuntime是一套兼容Nvidi