行业研究公司研究宏观策略财报招股书会议纪要 seedance2.0 低空经济 DeepSeek AIGC 大模型

通过总线技术实现数据中心级先进封装

信息技术 2023-11-28 中国移动研究院单字一个翔

《基于Chiplet技术的服务器内存需求与内存池化架构设计》

报告探讨了在Chiplet（小芯片）技术背景下，处理器核心数量的持续增长对服务器内存容量的显著提升需求，以及新一代人工智能对数据、算法和算力的巨大需求。特别指出，随着Intel和AMD等处理器核心数量的增加，对内存的需求也相应提升。报告强调了内存墙问题在大模型训练和推理场景下的紧迫性，以及通过芯片层级的架构改进缓解内存瓶颈的重要性。

报告分析了内存池化架构的设计原则与实践，包括可扩展性、性能优化以及基于总线技术的内存池化服务器设计要求。它阐述了内存池化架构的组成、功能、接口、通信协议和数据管理策略，强调了内存池化对于提高内存资源使用效率、增加利用率、灵活性和可用性的关键作用。此外，报告提出了总线级内存池化服务器设计的要求，包括服务器硬件架构、拓展规格等，以及实践中的具体步骤，如细化内存池方案设计、适配优化和内存资源的动态分配与共享。

报告呼吁行业内的整机、部件、芯片和应用相关单位共同参与，推动总线级内存池化架构设计规范的建立，为计算产业的转型升级提供支持。这一综合分析不仅揭示了内存需求的增长趋势，还提供了应对策略和优化方案，为未来计算基础设施的发展提供了指导。

演讲人：李锴演讲单位：中国移动研究院在Chiplet条件下，Intel、AMD、Arm、Hygon等处理器的核心数量不断增加，通用服务器算存比没有大幅波动情况下，对服务器内存容量需求大幅提升； Intel Sapphire Rapids提供多达60个内核，120线程，8个内存通道 AMD Genoa提供多达128个内核，256线程，12个内存通道 •新一代人工智能依赖数据、算法和算力，然而，当前AI硬件的算力增长远远超过内存发展速度，导致原有内存的分层架构效果无法完全满足现在业务需求； •在边缘场景下，海量、高维模型、稀疏特征数据需要强大的内存支持系统来实现更好的在线推理能力；在大模型的训练和推理场景，GPU/AI卡的显存或内存容量不足，呈现出明显的「内存墙」问题。这些数据的高维、稀疏特征又为计算和存储带来了很大的挑战，隐藏层大小可能就是数百万的量级，总参数量甚至能达到十万亿的量级，对显存/内存需求大 •需要通过芯片层级的架构改进来缓解内存墙瓶颈，例如将内存堆叠在逻辑芯片上，使内存更靠近处理器，从而更近、更快且更容易访问数据，无论在是通用计算还是智算都殊途同归；芯片内部正在使内存更接近逻辑和加速器，内存将不是通过PCB连接的，而是放在封装之中，CPU和加速器的速度更快、性能更高 •面向大模型的训练、推理场景，单机8卡已经不能单纯作为单台服务器的边界，需要构建更大型的超级计算机提高计算效率和能力，通过实现计算架构的改进，以确保其满足算、存要求，使数百级别处理器进行总线级互联； •当前业界有多种通过总线技术实现拓展带宽的技术，并将CPU、GPU、存储介质等异构部件实现全连接，增加缓存一致性、纳秒级时延、百处理器级别的技术能力，力争通过总线技术将大规模的存、算融为一体； •PCIe/CXL、Nvlink、CCIX、AMBA等技术正在加速演进； •中国移动正在密切探索包括CXL在内的多种总线技术，目的统一异构部件的算力和存储资源，实现大带宽芯片连接； •当总线可以实现多种应用场景，从现实需求的优先级来说，建议在构建统一内存池和GPU/AI芯片层级的总线互联进行同步推进； •内存池可以实现处理器和内存设备之间的缓存一致性访问，扩大内存容量和带宽； •Type 1：主要用于连接处理器和SmartNic等加速器，以提高处理器的转发效率性能；•Type 2：主要用于连接处理器、GPU等加速器和内存，以提高多处理器对内存的使用，提升多处理器协同效率。 •Type 3：主要用于连接处理器和扩展内存，以满足内存带宽和容量的拓展允许加速器访问和缓存主机连接的DDR内存允许主机访问加速器的易失性（RAM）和持久性非易失性（闪存）存储允许加速器访问和缓存主机连接的DDR内存 •提供新型计算模型的解决方案，为云计算和数据中心提供更高的数据速率、更高的带宽和容量 •适用于多种类型存储器的通用标准接口，可以为系统灵活的利用DRAM、LPDDR等不同内存介质 •以CXL等总线级技术不仅提供了高速传输，还支持内存共享和虚拟化，使设备之间的协作更加紧密和高效。 •通过带宽提升、多样性存储介质有助于满足现代数据中心对大规模处理和分析的需求，同时也能够为AI、机器学习等新兴应用提供更好的支持，从整体上降低TCO 多样带宽多样性存储介质内存带宽提升内存成本降低 •运行程序可在持久存储中，服务器断电内存数据不丢失；•总线级互联可直接连接CPU和设备，共享内存空间，避免了多个接口之间的通信开销；•可实现内存扩展和内存共享，包括非易失性存储介质，使得业务可以快速恢复； •通过内存扩展器（MemoryExpander）来增加DRAM的容量，可以在不改变系统结构的情况下，提高内存的可用性和灵活性。 •内存控制器提供的灵活性为提供比传统DIMM更精细的容量粒度提供了选择，允许系统实施者调整内存容量以适应其应用并降低成本； •当前CXL基于PCIe 5.0接口，支持32GB/s的双向传输速率；•通过利用主机处理器通过总线连接到各种内存接口来实现内存介质独立性；•内存控制器可以设计为支持不同的内存类型，DDR4、DDR5甚至持久内存或存储类内存； •总线级互联可以在本地系统内实现内存扩展，实现允许跨多个主机池化/共享内存，增加Switch架构后可实现更多主机内存的池化； •当前利用CXL是实现总线在内存池化的有效方法之一； •在用户空间，总线连接的优化包括利用用户级驱动程序，最大程度发挥总线的高带宽和低延迟特性；•在内核空间，需实现高效的内核模块，以确保CXL设备的无缝集成和高性能操作；•对于BMC，应加强安全机制，确保总线在数据传输的安全性，同时整合远程监控和故障诊断功能以提高管理效率。软件层 CXL应用层软件优化•用户调用、调度•cxl相关的lib库 CXLlib库 CXL内核空间 •cxlEventMgt是一种用于管理CXL事件的软件组件，EventMgt还提供了一种机制，用于将事件传递给其他CXL驱动程序或内核组件；•cxl Primary mailbox软件接口；•CCI接口，提供接收cxl命令 CXL内核空间 •cxlEventMgt•cxl Primary mailbox软件接口；•CCI接口，提供接收cxl命令 PCIe物理层Driver Primary/Secondary/OOBCXL Type3 CCII2C/PCIe/CXL Driver MCTP Driver、I2C Driver •利用CXL等总线级技术提供内存拓展、分层、池化等多种能力，推动形成内存架构优化机会，实现内存即服务的能力； •在拓展、分层、池化等多个层面进行优化，提供统一的MaaS服务能力；Memory as a service 持久内存内存分层非易失持久内存利用持久内存介质来实现数据的持久性存储，同时通过CXL协议与处理器进行连接和访问。在CXL技术中，"Memory asa Service"是一种内存服务模式，允许内存资源在多个处理器之间动态分配和释放，提高内存的资源利用率，降低TCO，增加灵活性和可用性。内存分层将cache、DRAM、NAND等多种存储和计算资源进行有效整合，提高数据处理效率。近存计算可通过CXL EP就近近存计算内存扩展对CXL内存中的数据进行距离计算，把计算结果送到本地内存中，这样减少数据传送。内存池化内存扩展提供了更高带宽和更大容量的内存解决方案，提供了存储资源扩展。内存设备连接在一起，实现缓存一致性、低延迟和高带宽的数据传输。 •优先基于在CXL等总线协议分解内存需求，将内存资源从单个服务器中进行解耦，并在多服务器之间动态分配和共享。这种模式可以提高内存资源的使用效率，增加内存的利用率、灵活性和可用性；总线级内存池化架构设计总线层级内存池化架构设计原则 •内存池化架构的组成和功能•内存池化架构的接口和通信协议•内存池化架构的数据管理和调度策略 •可扩展性原则•性能优化原则总线级内存池化服务器设计要求总线级内存池化服务器实践 •根据服务器拓展内存池系统需求，细化内存池方案设计；•对内存池与整机进行适配调优； •服务器硬件架构要求•服务器拓展expander规格等要求•制定总线级内存池化服务器设计标准希望联合整机、部件、芯片、应用等相关单位，一同推动总线级内存池化架构设计规范，为计算产业转型升级助力；

点击免费查看完整报告

你可能感兴趣

通过总线技术实现数据中心级先进封装

你可能感兴趣

【点金互动易】先进封装+算力芯片，成功实现了倒装和焊线类芯片的系统级混合封装技术，算力芯片是其重点布局方向之一，这家公司在材料和设备上均有相对应的国产备选方案

总线级数据中心网络技术白皮书

太空光伏是太空算力竞争的核心要素，公司已覆盖钙钛矿研发至GW级量产的设备方案，已通过验证并实现批量交付；市场空间超百亿的半导体耗材，相关公司有望随国内半导体IDM/代工厂崛起实现替代

通过国家技能战略实现系统级改革

【机构龙虎榜解读】硅光华为磁性元器件，硅光产品已通过行业检测标准，可适用于高速数据中心和云计算网络磁性元器件通过通信设备龙头产品认证，并实现全自动化量产，这家公司获净买入

通过总线技术实现数据中心级先进封装

你可能感兴趣

【点金互动易】先进封装+算力芯片，成功实现了倒装和焊线类芯片的系统级混合封装技术，算力芯片是其重点布局方向之一，这家公司在材料和设备上均有相对应的国产备选方案

总线级数据中心网络技术白皮书

太空光伏是太空算力竞争的核心要素，公司已覆盖钙钛矿研发至GW级量产的设备方案，已通过验证并实现批量交付；市场空间超百亿的半导体耗材，相关公司有望随国内半导体IDM/代工厂崛起实现替代

通过国家技能战略实现系统级改革

【机构龙虎榜解读】硅光华为磁性元器件，硅光产品已通过行业检测标准，可适用于高速数据中心和云计算网络 磁性元器件通过通信设备龙头产品认证，并实现全自动化量产，这家公司获净买入

【机构龙虎榜解读】硅光华为磁性元器件，硅光产品已通过行业检测标准，可适用于高速数据中心和云计算网络磁性元器件通过通信设备龙头产品认证，并实现全自动化量产，这家公司获净买入