112G线性光互联解决方案白皮书ODCC-2022-0300A 分布式存储技术与产业分析报告 1 [编号ODCC-2022-0300A] 112G线性互联解决方案白皮书 开放数据中心标准推进委员会 2022-09发布 112G线性光互联解决方案白皮书ODCC-2022-0300A 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 112G线性光互联解决方案白皮书ODCC-2022-0300A 编制说明 本白皮书在撰写过程中得到了多家单位的大力支持,在此特别感谢以下参编单位和参编人员: 参编单位(排名不分先后): 腾讯、光迅、立讯、博创、安费诺、英伟达、中国信息通信研究院、是德参编人员(排名不分先后): 康浩浩、沈大勇、高万超、张涛、吴春付、李林春,高旻圣,周航、袁双峰、方刘海、王健、孙聪、王少鹏 II 112G线性光互联解决方案白皮书ODCC-2022-0300A 前言 过去十几年,互联网和云计算迅猛的发展,产生了超大规模的数据中心,而传统网络技术已经无法满足超大规模数据中心的要求,进一步推动网络技术的演进和变革。以太网速率已经从25G接入,100G互联增长到如今的100G接入,200G/400G互联,并逐步向200G接入,800G/1.6T互联演进。为了提高物理链路的通信容量,单链路速率从25GNRZ演进到56GPAM4,并112G/224GPAM4演进。随着物理层单链路速率的提升,交换机/网卡SerdesIP架构也在不断迭代,在单通道112G下,主流的Serdes方案已经是ADC+DSP架构,均衡和信号再生能力较强,硬件架构上线性直驱112G光电转换具备可行性,并且OIFCEI-112G-Linear标准已经验证确认。基于以上前提,采用线性直驱方案的互联线缆,技术上无风险。 III 112G线性光互联解决方案白皮书ODCC-2022-0300A 目录 版权声明I 编制说明II 前言III 一、背景介绍1 二、112G高速互联系统设计1 (一)112GSerDes基本架构2 三、112Glinear线性光互联4 (一)线性互联优势4 (二)线性光互连可行性分析5 1.OIFCEI-Linear协议进展5 2.112Glinear光产品系统架构6 3.112Glinear光产品可行性评估8 (三)112Glinear光产品设计10 1.整体设计10 2.光路部分设计10 3.发射部分设计11 4.接收部分设计12 (四)112Glinear光产品测试12 四、112Glinear线性铜互联13 (一)112Glinear铜互连优势13 (二)112Glinear铜产品设计14 IV 112G线性光互联解决方案白皮书ODCC-2022-0300A 1.结构设计15 2.电路设计15 3.产品形态16 (三)112Glinear铜产品测试17 1.信号完整性测试项目要求及方法17 2.电气可靠性测试要求18 3.机械可靠性测试要求19 4.环境可靠性测试要求20 五、112Glinear线性互联系统测试21 (一)系统Tx参数摸底21 (二)链路性能评估22 (三)系统兼容性测试23 V 112G线性光互联解决方案白皮书ODCC-2022-0300A 一、背景介绍 随着带宽需求的增加,以太网交换机和光纤通信通道都需要在单位容量成本、带宽密度和能源效率方面保持同步快速提升以适应市场需求。从2010年到现在,交换芯片ASIC(专用集成电路)和光模块的容量都增加了40倍,分别从0.64Tb/s到25.6Tb/s和从10Gb/s到400Gb/s。而当数据中心单通道速率演进到112GSerDes时,电信道在信号完整性方面遇到了巨大的挑战,为了解决电信号的这些问题,112GSerDes在架构设计上需要更强的信号均衡能力,这也导致SerDes整体功耗的增加,单机互联模块的功耗正在迅速增长并且即将超过交换核心的功耗。除了功耗挑战之外,如何降低单位bit的成本也是网络技术演进过程中的一个主要考虑因素。在112Gbps时代,系统芯片的信号的补偿和均衡能力显著提升的技术背景下,为了有效应对互联硬件功耗和成本的挑战,线性架构的竞争优势逐渐体现出来。本白皮书聚焦于提供线性光互联和线性铜互联解决方案。 二、112G高速互联系统设计 行业目前有10Gb/s、25Gb/s和56Gb/s的电气接口可供使用,目前正在进行112Gb/s的开发工作,以满足更高的数据速率需求。然而,传统铜互连的带宽受到严重限制,使用高速通道的设计越来越困难。同时,芯片功耗的剧烈上升,在互连设计中对电源通道设计的挑战成倍。 高速通道的实现由可支撑的损耗预算决定。损耗由链路长度,板材、连接器,过孔等无源损耗节点决定。在网络设备中,前面区域通常由用于系统间通信的光模块占据,而系统内的板卡通信通过背板/中板连接。为了支持合理的系统尺寸,系统背板/中面板长距离连接通常需要达到1m的距离。在112Gb/s的电气串行速率下,达到这种距离已经需要使用先进的低损耗电路材料和高性能连接器来满足损耗预算。芯片基片和印刷电路板(PCB)材料(介质和导体)影响总损耗。在考虑高速通道设计时,需要考虑的重要因素是高速通道各种组件的 1 112G线性光互联解决方案白皮书ODCC-2022-0300A 阻抗和串扰特性,在112Gbps,回损对低损耗信道的影响变得很明显。基于这一认识,112Gbps的应用将需要更多地权衡插入损耗以外因素的影响。 (一)112GSerDes基本架构 高速信号在无源通道传播中会产生畸变,造成接收端信号信噪比(S/N)恶化,形成误码。系统实现中,通道造成的畸变不可避免,要求SerDes具有信号恢复再生能力。无源通道对信号的影响通常分为:损耗(Loss)、反射(Reflection)和串扰(Crosstalk)。串扰影响具有不确定性(Un-Deterministic),不能被纠正(Corrected);损耗和反射影响是确定性的(Deterministic),理论上可纠正。SerDes能力主要是对损耗造成畸变信号进行恢复,因此通常采用信号能恢复的“最大通道损耗”能力来简单表征SerDes性能。 112G为PAM4编码,波特率为56Gbps,UI≈18ps。112G信号恢复难度极大,对损耗较大的链路,纯模拟架构难以保证误码率,几乎所有的长链路112GSerDes均为模拟和数字混合架构。 图1112G基于数字架构SERDES框图 模拟部分的功耗不会随着数据率增加而增加,而对数字部分功耗随波特率增加而增加。从时域看,无源通道损耗越大,通道冲击响应持续的时间越长,冲击响应持续的UI数越多,DFE/FFE阶数越多,SerDes的资源越多,即功耗越大。112Gbps相对56Gbps波特率增加一倍,需要的DFE/FFE阶数增加一倍,因此112G的SerDes的功耗不可忽略。针对不同无源通道损耗和应用场景,将112G链路进行分类,对应不同的参考SerDes架构和目标的功耗。 2 112G线性光互联解决方案白皮书ODCC-2022-0300A 线性均衡(CTLE)、FFE和DFE为常见SerDes均衡方式。其中CTLE和DFE位于接收侧,FFE可位于接收和发送侧,在发送侧通常称为FIR(FiniteImpulseResponse)滤波器。如图,3阶FIR滤波器传递函数为高通滤波器,在Nyquist频点的幅度为1,在直流的幅度为(Main-pre-post)/(Main+pre+post);超过3阶的FIR滤波器从时域卷积波形进行设计。FFE没有信号增益,通过压低信号的低频形成高通滤波器,因此FFE会压缩信号的摆幅,消除ISI同时降低了信噪比(S/N) 图2发送侧FFE恢复信号机制 接收线性均衡(CTLE),其频响为高通滤波器,无增益的CTLE(比如VSR参考接收机)同样会压低低频缩小眼图,有增益的CTLE放大信号会同时放大高频噪声。CTLE增益曲线通常可采用零极点函数进行表征,为了更好的将接近,CTLE通常可以设计多个零极点,可以更精细的控制CTLE 的传递函数,从而获得更平坦。 图3无源CTLE电路和频域相应曲线 3 112G线性光互联解决方案白皮书ODCC-2022-0300A DFE(DecisionfeedbackEQ):时域上,ISI能量会渗入相邻通道中且比例是确定的,DFE直接将这部分能量通过加法器扣除;DFE不会降低信号幅度或放大噪声,仅对信号对应tap采样时刻有效,是负反馈系统;负反馈可能会造成系统的不稳定,即误码传播,DFE的反馈系数(系数和)越大则误码传播可能性越大。FFE(FeedForwardEQ),类似发送FIR,模拟FFE会造成信号幅度下降;通过对模拟信号进行AD采样,采用DSP进行多阶的FFE有效的信号恢复;FFE没有负反馈机制,不会造成误码传播,适合于有误码系统。 图4FFE和DFE实现机制及DFE时域响应 二次反射噪声也称为回音(echo)噪声,回音噪声非线性,在频域上体现为Ripple,在时域上为毛刺,无法通过线性均衡(CTLE和FFE)消除。若回音噪声在DFEtap控制范围内,可以消除噪声;两个反射点的间距为,则反射的能量出现于信号后,则至少需要: 112G互连技术的实施带来了很大挑战:信号速率的翻倍,电源功耗的剧烈增加,关键器件性能的提升和可靠性设计,成本的管控等。总之,需要仔细的研究,以针对所确定的每一个挑战的解决方案,实现满足带宽要求的经济高效的112G互连解决方案。 三、112Glinear线性光互联 (一)线性互联优势 4 112G线性光互联解决方案白皮书ODCC-2022-0300A 随着数据中心网络技术发展,推动了光模块的容量逐渐向400G/800G/1.6T演进,为了在光模块的容量、功耗、成本三者之间达到一个平衡,光模块内部光学组件需要向更高程度的集成和制造自动化的发展。展望未来,SwitchFabricASIC和光学引擎的集成被认为是提升集成密度、成本效益和能源效率方面的发展的方向之一。因此出现了从可插拔部署模型转向新的光学器件共同封装(CPO)模型的转换,该模型通过使光学器件更接近SwitchFabricASIC来解决上述挑战。共同封装光学解决方案需要在能效(pJ/bit)和成本($/bit)方面优于可插拔光模块,初期的CPO方案大部分还是基于CDR/DSP架构为主,采用高度晶圆等级或是芯片等级的集成来验证可行性但是仍然需要面对散热的严酷挑战,热源高度集中难以有效的提升系统特性的稳定性。因此市场倾向需要线性光学引擎接口来实现低功耗、低成本、低时延,特别是用于共同封装光学器件(CPO)、近封装光学(NPO)和超算中心、低时延同步移动网络、AI设备服务器的应用,但是同时对于主系统芯片的信号补偿能力挑战及信道的信号完整度的要求也大幅提升,此时线性架构的竞争优势也相对非常明显包含: 端口功耗显着降低(无DSP) 成本显着降低(无DSP或是无CDR)链接协商能够充分利用系统ASIC功能 物理层接口运行不影响数据速率、协议层、FEC方案架构可扩展到下一代数据通讯 更快的系统链接启动及低时延 (二)线性光互连可行性分析 1.OIFCEI-Linear协议进展 OIF计划推动芯片到光学引擎的线性接口,实现低功耗、低成本、小尺寸CPO、NPO以及112G串行光模块。该项目将有助于增加带宽和降低交换机端口 5 112G线性光互联解决方案白皮书ODCC-2022-0300A 的功率,采用紧密共封装光模块的交换机/服务器的应用将因为于功率/成本的降低而