工业联系报告 IEEE802Nendica报告: 智能无损的数据中心网络 3公园大道|纽约,纽约10016量5997|美国 许可使用仅限于:IEEEXplore。于2021年7月13日00:46:18UTC从IEEEXplore下载。有限制。 IEEE802Nendica报告: 智能无损的数据中心网络 编辑器 的名字 联系 郭,梁 CAICT/ODCC Congdon保罗 华为 Nendica椅子 的名字 联系 标志,罗杰 华为 贡献者/支持者 的名字 联系 李,杰 CAICT/ODCC 高,冯 百度 顾,荣 中国移动 赵,Jizhuang 中国电信 陈,Chuansheng 腾讯 阴,岳 华为 歌,( 英伟达 刘,小君 思科 他,Zongying 博通公司 太阳,李阳 华为 唐、光明 Meituan 全,郝 Meituan 道,Chunlei JD WangShaopeng CAICT/ODCC 1IEEESA行业联系版权©2021年IEEE。保留所有权利。 商标和免责声明 IEEE认为本出版物中的信息在其出版日期是准确的;此类信息如有更改,恕不另行通知。IEEE对任何无意的错误 概不负责。 版权©2021年IEEE。保留所有权利。 IEEE拥有本作品所有形式媒体的版权。从本作品检索、显示或输出的内容的版权归IEEE所有,并受美国版权法和国际条约的保护。IEEE保留所有未明确授予的权利。 IEEE免费向您提供作品。但是,本作品不应像IEEE那样被视为“公共领域”,并且始终是本作品的唯一版权所有者。 除非美国版权法或适用的国际条约允许,否则未经IEEE事先书面许可,您不得以任何形式进一步复制,准备和/或分发本作品的副本或本作品的重要部分。 请求全部或部分重印本作品的许可请求,或以任何形式复制和/或分发本作品的许可请求,必须通过电子邮件提交给stds-ipr@ieee.org,或以书面形式提交至: IEEESA授权,合同445锄头巷皮斯卡塔韦,新泽西州08854 Nendica欢迎对本报告发表评论:IEEE802“未来十年的网络增强”行业连接活动:<https://1.ieee802.org/802nendica应承担的> 评论提交说明可在以下位置找到:<https://1.ieee802.org/802nendica/nendica应承担的宽带> 电气和电子工程师协会3公园大道,纽约,NY10016-5997,美国 版权所有©2021电气和电子工程师协会。 保留所有权利。2021年6月发布。在美国印刷。 IEEE和802是美国专利商标局的注册商标,由电气和电子工程师协会拥有。PDF:ISBN978量量504477413STDVA24816应承担的 IEEE禁止歧视、骚扰和欺凌。有关更多信息,请访问 http://www.ieee.org/web/aboutus/whatis/policies/p9-26.html。 未经出版商事先书面许可,不得以任何形式、在电子检索系统中或其他方式复制本出版物的任何部分。要订购IEEE新闻出版物,请致电1-800-678-IEEE。 有关IEEE标准和标准相关的产品列表,请访问:http://standards.ieee.org 2IEEESA行业联系版权©2021年IEEE。保留所有权利。 有关使用IEEESA行业连接文档的责任通知和免责声明 本IEEE标准协会(“IEEESA”)行业连接出版物(“工作”)不是共识标准文档。具体来说,本文档不是IEEE标准。本作品中包含的信息由被认为可靠的来源创建或获取,并由制作本作品的IEEESA行业联系活动的成员进行审查。IEEE和IEEESA行业联系活动成员明确否认与本作品相关的所有保证(明示、暗示和法定),包括但不限于以下保证:适销性;适用于特定目的;不侵权;本作品或本作品中内容的质量、准确性、有效性、时效性或完整性。此外 ,IEEE和IEEESA行业联系活动成员不承担与以下方面相关的任何和所有条件:结果;和做工的努力。此IEEESA行业连接文档按“原样”和“包含所有错误”提供。 尽管创建本作品的IEEESA行业联系活动成员认为本作品中提供的信息和指导是对用户的增强,但所有人在使用本作品时都必须依靠自己的技能和判断力。在任何情况下,IEEE或IEEESA行业联系活动均不得会员应对任何错误或遗漏或直接、间接、偶然、特殊、惩戒性或后果性损害(包括但不限于:采购替代商品或服务;使用、数据或利润损失;或业务中断),无论其原因和基于任何责任理论,无论是合同、严格责任还是侵权行为(包括疏忽或其他 ),以任何方式因使用本作品而产生,即使已被告知此类损害的可能性,也无论此类损害是否可预见. 此外,本作品中包含的信息可能受第三方或组织持有的知识产权的保护,并且使用此信息可能需要用户与任何此类权利持有人进行谈判才能合法获得这样做的权利,并且此类权利人可以拒绝授予此类权利。还提请注意,实施任何或所有本作品可能需要使用专利权所涵盖的主题。通过出版本作品,IEEE对与之相关的任何专利权的存在或有效性不采取任何立场。IEEE不负责确定可能需要许可的专利权,也不负责对专利权利要求的法律有效性或范围进行调查。明确告知用户,确定任何专利权的有效性以及侵犯此类权利的风险完全由用户自行负责。没有寻求或收到任何权利持有人在合理或非歧视的基础上授予专利权许可的承诺。创建本文档所依据的政策和程序可在以下位置查看:http://standards.ieee.org/about/sasb/iccom/. 本作品发布时的理解是,IEEE和IEEESA行业联系活动成员通过本作品提供信息,而不是试图提供工程或其他专业服务。如果需要此类服务,应寻求适当专业人员的协助。IEEE不对本作品中提出的陈述和意见负责。 3IEEESA行业联系版权©2021年IEEE。保留所有权利。 我们授权许可 编辑器1 Nendica椅子1 贡献者/支持者1 1介绍5 范围5 目的5 2将数据中心5 一个新的世界,数据无处不在5 3不断发展的数据中心需求和技术7 以前的数据中心连接标准7 需求演化8 人工智能计算的特点9 不断发展的技术11 4今天的数据中心网络的挑战21 高吞吐量和低延迟的权衡21 表的内容 死锁自由无损的网络23 大规模数据中心网络中的拥塞控制问题24 拥塞控制算法的配置复杂性26 5解决新数据中心问题的新技术28 用于低延迟和高吞吐量的混合传输28 使用拓扑识别防止PFC死锁29 改善交通拥堵的通知32 解决配置的复杂性33 6标准化的考虑36 7结论38 8引用38 e仅限于:IEEEXplore。于2021年7月13日00:46:18UTC从IEEEXplore下载。有限制。 1介绍 本文是IEEE802“未来十年的网络增强”行业连接活动(称为Nendica)中一个工作项目[19]的结果.1该论文扩展了2018年8月17日发布的上一份报告“IEEE802Nendica报告:数据中心的无损网络”[20]。此更新提供了有关现代数据中心不断发展的用例的其他背景信息,并为本报告确定的其他问题提出了解决方案。 范围 本报告的范围是探索网络技术,以支持现代数据中心网络的要求,包括对高性能计算和人工智能应用的支持。提出了应对不断变化的需求和新时代技术带来的挑战的解决方案。确定了标准化注意事项。 目的 本报告的目的是为现代数据中心网络的问题和挑战制定高级解决方案。该报告包括对当前数据中心环境的背景和技术分析,因为它们适用于目标应用程序不断变化的需求。该报告重点介绍了正在改变数据中心网络动态和运营的新技术。分析结果有助于确定和建议未来的标准化活动。 2将数据中心 一个新的世界,数据无处不在 数字化转型正在推动我们个人和职业生活的变化。工作流程和个人互动正在转向由云、移动性和物联网实现的数字流程和自动化工具。数字化转型背后的智能是人工智能(AI)。运行具有大量数据的AI应用程序的数据中心正在将数据重新转换为相关信息、自动化的人机交互和精细的决策(见图1)。在当今世界,与数据中心实时交互的需求比以往任何时候都更加重要,因为增强现实、语音识别和上下文搜索需要 1括号内的数字是指第8节中的引文参考文献。 5IEEESA行业联系版权©2021年IEEE。保留所有权利。 立竿见影的效果。数据中心网络必须提供前所未有的性能、规模和可靠性,以满足这些实时需求。 图1⎯人工智能的数字转换的时代 云时代的数据中心专注于应用转型和业务的快速部署。在人工智能时代,数据中心是我们数字生活实时数字化转型的信息和算法来源。高速存储和AI分布式计算的结合,将大数据转化为人、机器和物访问的快速数据。无丢包的高性能、大规模数据中心网络对于数字化转型的平稳运行至关重要。 对于高性能应用程序(如AI),网络性能的关键衡量标准包括吞吐量、延迟和拥塞。吞吐量取决于网络快速传输大量数据的总容量。延迟是指跨数据中心网络的交易的总延迟。当流量负载超过网络容量时,会发生拥塞。数据包丢失是严重影响吞吐量和延迟的因素。 当前,各行各业数字化转型正在加速。据估计,64%的企业已成为数字化转型的探索者和实践者(橙色[38] )。在2000家跨国公司中,67%的首席执行官将数字化作为其企业战略的核心(Wiles[42])。实时世界中数字化转型的驱动力正在引领数据中心网络支持“以数据为中心”的计算模型。 数字化过程中将产生大量数据,成为核心资产,使能人工智能应用的出现。华为全球产业愿景预测,2025年数据量将达到180ZB[18]。然而,数据并不是“最终本身”。从数据中提取的知识和智慧是永恒的价值。非结构化数据(如原始语音、视频、图像数据)的比例不断增加,未来将占所有数据的95%(见图2)。当前的大数据分析方法无法跟上数据的增长步伐,需要性能创新才能从原始数据中提取价值。基于深度学习的人工智能方法可以过滤掉大量无效数据,自动提取有用信息,提供更高效的决策和行为指导。 6IEEESA行业联系版权©2021年IEEE。保留所有权利。 大量的数据非组织性数据性能的创新 网络 95% 人工智能 40100对400年GbE 180年ZB 每年生成的数据: 8.6ZB(2015)180ZB(2025) 音频/视频 非结构化数据的比例 图2⎯新兴的人工智能应用 存储 硬盘驱动器固态硬盘供应链管理 计算 CPUGPU人工智能芯片 云数据中心架构总体上提高了应用程序的性能和规模。云平台允许快速分配IT资源,以创建以应用程序为中心的服务模型。在人工智能时代,应用程序正在消耗前所未有的数据量,云数据中心架构通过必要的性能创新来增强以处理负载。在现有的云数据中心中,无缝引入这些创新以及新的AI应用程序可能很棘手。了解如何根据AI应用程序的需求有效地处理数据是一个关键的重点领域。协调应用程序的存储和计算资源之间的数据流是成功的关键因素。 3数据中心的需求和技术发展 以前的数据中心连接标准 在10Gbps以太网的早期,IEEE802.1工作组将重点放在数据中心桥接(DCB)上。DCB任务组定义了一组用于数据中心环境的以太网、网桥和相关协议的增强功能。使用案例和重点是集群和存储区域网络,其中使用了传统的专用技术,如InfiniBand™和光纤通道.2以太网的重要目标是消除拥塞造成的损失,并为选定的流量分配链路带宽。当时的主要贡献包括以下内容: 基于优先级优先流控制(PFC):一种链路级流量控制机制,可消除数据包丢失,并可独立应用于每个流量类。 增强传输选择(ETS):一种队列调度算法,允许为流量类分配带宽。 2InfiniBand是InfiniBand®TradeAssociation的商标和服务标志。 7IEEESA行业联系版权©2021年IEEE。保留所有权利。 拥塞通知:第2层端到端拥塞管理协议