您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:Service Telemetry数据采集方案白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

Service Telemetry数据采集方案白皮书

Service Telemetry数据采集方案白皮书

ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 分布式存储技术与产业分析报告 1 [编号ODCC-2022-03009] ServiceTelemetry数据采集方案白皮书 开放数据中心标准推进委员会 2022-09发布 ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 编制说明 本报告在撰写过程中得到了多家单位的大力支持,在此特别感谢以下参编单位和参编人员: 参编单位(排名不分先后): 腾讯、百度、中国移动、美团、博通、华三、华为、锐捷、中国信通院 (云大所) 参编人员(排名不分先后): 胡小媛、包贵新、秦凤伟、杜海峰、何宗应、晏思宇、杨扬、冯耀烽、孙聪、王少鹏 II ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 前言 在云化和AI时代,数据中心网络由数十万级的交换机设备、百万级的网卡和数千万级网络实例组成,并不断在随着业务动态变化,复杂性远超以往。计算资源池化、存储资源池化后产生的指数级数据流量增长给数据中心网络的运营带来了严峻挑战。我们改变传统网络管理工作的思路,设计了面向应用的ServiceTelemetry平台,采用应用看网络的视角,基于大数据技术结合AI算法实现应用流模型画像,解决故障发现难、诊断难和界定难的问题,并提供应用瓶颈识别,性能优化、故障规避和预测等网络服务能力。本文着重介绍ServiceTelemetry平台的几个应用场景以及对应的技术实现、采集规范等内容。 III ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 目录 版权声明I 编制说明II 前言III 一、背景1 (一)网络遥测技术1 (二)面向应用的网络遥测技术(ServiceTelemetry)1 二、应用场景3 (一)场景一:应用画像3 1.业务染色3 2.业务实例画像4 3.业务实例转发路径4 4.数据定义5 (二)场景二:微突发监控6 1.微突发的定义6 2.微突发的原因7 3.微突发的影响8 4.微突发监控的实现8 5.微突发数据分析9 6.数据定义9 三、采集规范10 (一)系统架构10 IV ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 (二)下发和采集规范10 1.下发方式10 2.上报方式14 V ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 一、背景 图1传统网络遥测技术与ServiceTelemetry的对比图 (一)网络遥测技术 广义上说,网络遥测技术(Telemetry)是指从设备上采集高精度数据,为网管系统定制信息、并通过设备实时主动推送数据的技术。不同于传统网络测量技术采集数据以IP报文格式呈现给分析工具,网络遥测技术通常使用“推模式”,支持亚秒级精度的数据采集和格式化数据传输。 (二)面向应用的网络遥测技术(ServiceTelemetry) 图2基于ServiceTelemetry的业务监控框架 在云化和AI时代,业务对网络提出了新的要求,ServiceTelemetry实现了从单一的网络质量监控到业务与网络联合监控的转变,同时实现了从设备运维到业务通信运维的升级。 要求一:业务质量精确可视 1 ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 承载着基础转发能力的物理网络任何一个小问题都会影响到应用的质量,传统的网络运维视角只关注带宽使用情况,丢包具体内容和原因等指标,但这些指标对业务的性能产生多大的影响,无法有效的关联。只有将网络指标和应用指标相互关联,构建出业务流的画像的系统,才能精确度量出应用的运行情况。 要求二:分布式应用不断升级,如何优化长尾IO 随着应用架构逐渐向分布式发展,导致大量incast突发流量网络上涌现,多种硬件卸载技术被广泛应用,更快更轻的网络通信方式相继涌现,这也进一步增大网络吞吐压力。同时存储介质的不断升级,网络IO时延问题进一步成为制约存储性能提升的关键瓶颈问题,唯有准确查找出存储长尾时延IO及其具体成因,才能有针对性地采取有效优化措施。 要求三:问题快速界定 大规模的网络故障发现难,问题界定更难,比如网络微突发抖动很常见并不易感知,而应用对时延的抖动问题却很敏感。需要分析瓶颈在应用侧还是网络设备,原因具体是什么,该怎样解决谁来解决。 基于“以应用为中心的网络”理念,我们提出ServiceTelemetry的概念,向业务提供高精度、更加丰满和定制化的数据,帮助业务打开网络的黑盒子,为未来向业务故障预测、应用驱动网络等愿景前进打下基础。ServiceTelemetry为业务提供的核心能力包括: 应用模型画像 度量业务实例性能影响的关键指标:比如TPS\QPS\IOPS、IO抖动、长尾IO。 业务瓶颈识别:带宽、时延敏感流识别。 高精度网络度量 2 ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 实现微突发现象监控和自愈; 实现业务流量端到端逐跳时微秒级度量。随流技术检测 精确测量每条业务的丢包率/时延信息;精确还原业务转发面路径信息背景。 二、应用场景 (一)场景一:应用画像 应用画像功能是在ServiceTelemetry平台实现业务的关键数据采集和多维度分析,输出的分析报告,包括对业务流维度的端到端完成时间和在每个网络节点的逐跳时延,比如TPS\QPS\IOPS,以及latencyp99、p999等关键指标的评估分析。只有将网络指标和应用指标映射关联,构建出业务流的画像的系统,才能精确度量出应用的运行情况。 1.业务染色 应用架构分布式发展、多种硬件卸载技术广泛应用,对于应用画像精确度、数据处理能力等方面都提出了巨大挑战,没有办法采集并分析全部业务流量,必须更加有的放矢地选取具体关键流程报文进行染色、达到精准度量而不额外增加网络通信开销。针对这一问题,ServiceTelemetry实现了的关键业务流识别方法,此类关键业务流以消息较小且内容完整为主要特征,通常包括业务实例的类型,任务消息大小和种类,任务开始和完成标识等信息,一般为控制报文,这类报文通常与数据传输的流使用相同的链接,也就有相同的网络转发路径,因此只需对此类关键业务流进行染色识别即可。业务在对数据结构定义时,在IP报文四层头后面插入特定报文头标记报文 (染色字段),并打上相应的时间戳。 3 ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 2.业务实例画像 业务端染色完成后,进入接入层网络设备,设备在转发芯片内建立一个业务实例表Service_Table,以业务实例报文源IP、目的IP及业务实例序号(Service_Seq)唯一标识一个业务实例,这个表里同时还记录该实例的时间戳、业务实例类型、业务实例编号、业务实例传输大小等信息;并Parser解析业务IP报文头,判断业务实例编号(Service_Seq)在Service_Table中不存在时,则创建一条实例表项;如该业务实例编号 (Service_Seq)在Service_Table中已存在,判断业务实例类型,并根据Service类型更新Service_Table中该实例的内容;在识别出一个业务实例的完成报文(Service_Resp),更新时间戳,并将Service_Table中记录的该业务实例表项封装为ServiceTelemetrystream上送分析平台,同时网络设备本地删除该条表项记录;分析平台实时进行数据的分析和统计,比如针对不同消息大小的业务实例,不同时段的业务实例,进行测量比较,评估业务的健康状态。还可以深入进行多维度的分析,比如业务实例时延分布情况、长尾IO、IO抖动和性能瓶颈等等。 3.业务实例转发路径 当ServiceTelemetry平台分析发现业务性能的一些异常情况,比如业务实例IO长尾时延数据对比典型值的波动超出阈值,则可以针对性触发对该业务实例的转发路径的探测,采集该业务实例在整个网络上完整转发路径,以进一步对网络进行分析,找出问题网络设备或者链路。具体过程如下:ServiceTelemetry分析器触发业务的发起端服务器发出业务质量探针报文,染色并打时间戳,在逐跳的网络设备上对探针报文打上入、出时间戳,入、出网络端口信息,网络设备ID,网络设备质量状态等信息,目的服务器收到业务探针报文,打上时间戳并复制封装上送ServiceTelemetry分析器,同时发送业务响应报文,染色并打时间戳,以完成对回程报文转发路径的采集;ServiceTelemetry分析器可以根据业务报文的双向转发路径,根据时间戳信息得出该双向转发路径各自的网络时延,从而评估该业务完整转发路径的健康状态,快速准确的找到问题设备节点。 4 ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 4.数据定义 业务实例数据表(Service_Table)定义 属性 含义 数据类型 数据长度 DestinationIP 业务实例响应端IP地址 int 4B SourceIP 业务实例发起端IP地址 int 4B ServiceSequence 业务实例序列号 int 2B ServiceType 业务实例类型 int 1B ServiceSize 业务实例大小 int 1B Timestamp 业务发起时间 double 4B TimestampUpdate 业务最近更新时间 double 4B 业务实例转发路径表定义: 属性 U含义 数据类型 数据长度 Device-ID 网络设备ID int 4Byte Congestion 拥塞标志位 int 5bit DropPkt 业务实例序列号 int 1Byte IPTTL 报文的TTL值 int 1Byte RxTimestamp 入接口时间戳 double 2Byte TxTimestamp 出接口时间戳 double 2Byte IngressPort 入接口 int 2Byte 5 ServiceTelemetry数据采集方案白皮书ODCC-2022-03009 EgressPort 出接口 int 2Byte 配置下发数据定义 属性 含义 数据类型 数据长度 DeviceID 网络设备ID int 1Byte Collectoraddress 采集器IP地址 int 4Byte Destinationport 采集器端口号 int 2Byte Sourceaddress 网络设备上送源IP int 4Byte Sourceport 网络设备上送源端口 int 2Byte 业务实例异常数据表 属性 含义 数据类型 数据长度 DestinationIP 业务实例响应端IP地址 int 4Byte SourceIP 业务实例发起端IP地址 int 4Byte ServiceSequence 业务实例序列号 int 2Byte ErrorType 异常类型 int 1Byte (二)场景二:微突发监控 1.微突发的定义 业务流量微突发(Microburst)是数据中心网络中一种常见的现象,是端口在非常短的时间(毫秒级别)内收到非常多的突发数据,典型的微突发的持续时间通常在1~100毫秒之间,以至

你可能感兴趣

hot

数据采集方案设计规范及管理原则

信息技术
神策数据2020-04-22
hot

利率报备监测分析系统数据采集规范V1.0.3

中国人民银行清算总中心2023-12-20
hot

工业数据采集 头豹词条报告系列

机械设备
头豹研究院2024-01-03