您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开放数据中心委员会]:数据中心智能传感网络开放体系白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

数据中心智能传感网络开放体系白皮书

AI智能总结
查看更多
数据中心智能传感网络开放体系白皮书

数据中心智能传感网络开放体系白皮书ODCC-2023-06001 1 [编号ODCC-2023-06001] 数据中心智能传感网络开放体系白皮书 开放数据中心委员会2023-09发布 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 版权声明 ODCC(开放数据中心委员会)发布的各项成果,受《著作权法》保护,编制单位共同享有著作权。 转载、摘编或利用其它方式使用ODCC成果中的文字或者观点的,应注明来源:“开放数据中心委员会ODCC”。 对于未经著作权人书面同意而实施的剽窃、复制、修改、销售、改编、汇编和翻译出版等侵权行为,ODCC及有关单位将追究其法律责任,感谢各单位的配合与支持。 I 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 编写组 项目经理: 杨朴腾讯科技(深圳)有限公司工作组长: 岳上腾讯科技(深圳)有限公司 贡献专家: 颜小云腾讯科技(深圳)有限公司张术腾讯科技(深圳)有限公司周瑞旭腾讯科技(深圳)有限公司林锐锋腾讯科技(深圳)有限公司樊驿隆腾讯科技(深圳)有限公司李小明腾讯科技(深圳)有限公司庞孟羽腾讯科技(深圳)有限公司龙永明腾讯科技(深圳)有限公司赵连启腾讯科技(深圳)有限公司李祖喜腾讯科技(深圳)有限公司 刘大闯深圳市中电电力技术股份有限公司许可欣中国信息通信研究院 II 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 前言 大型数据中心单模组超过十万个测点,在运营期间对这些数据的治理维护费用已经超过采购建设成本。例如最常见的直流霍尔传感和温湿度传感器存在随着使用周期采集精度非线性漂移的问题,电池监控仪的内阻检测由于接触原因导致采集异常等,不准确的数据可能导致PUE统计失真、热点告警阈值裕量过大和设备健康度突变等。传统弱电集成主要关注传感器设计精度和采购成本,但是忽略了数据中心超过10年运营周期,传感器并不能保持一致的数据质量,为此加大了人工巡检和数据治理的工作量。 可信数据是数据中心自动化运营和智能化运营的基础数字底座,面对中大型数据中心或大规模数据中心集群的海量数据治理挑战,只有建立完整数据标准体系,并从数据采集、传输、存储到消费的全数据链路实现数据质量保证和控制,特别需要从数据源头即智能传感器开始设计才是根本解决之道。智能传感网络开放体系推动开放协议和标准连接实现即插即用,并内置自校准算法实现免维护,通过自诊断算法主动上报故障告警实现主动运维,最终实现可信数据分级定义,确保在设计、安装、运营和维保全周期保持一致的数据质量,为数据中心告警、变更、巡检和维保自动化、成本分析和AI调优等服务提供可信数据基础能力。 本白皮书定义智能传感网络开放体系,包括五个核心模块,分别阐述开放通信协议、自动校准算法、标准连接定义、主动运维体系和可信数据分级。 III 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 本白皮书可作为数据中心运营经理、弱电工程师、设备厂商、开发人员、高校研究和相关数据中心从业者的技术参考。 由于时间仓促,水平所限,错误和不足之处在所难免,欢迎各位读者批评指正。如有意见或建议请联系编写组。 IV 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 目录 版权声明I 编写组II 前言III 一、术语定义1 二、项目背景2 三、智能传感体系4 四、开放通信协议6 (一)设备标识7 (二)数据质量7 (三)交互协议11 (四)总线协议19 五、自动校准算法21 (一)多数据源21 (二)开放算法原理23 (三)自诊断和自校准算法26 六、标准连接定义29 (一)串口连接29 (二)自动定位30 (三)IP连接31 (四)无线接入32 (五)统一布线32 (六)防呆设计33 V 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 (七)统一编号33 (八)线缆接口34 七、主动运维体系35 (一)诊断告警37 (二)自动派单37 (三)备品备件37 (四)硬件更换38 (五)数据恢复38 (六)数据治理38 八、可信数据分级40 (一)数据质量40 (二)数据存储41 (三)数据安全42 (四)数据审计42 (五)数据等级43 VI 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 数据中心智能传感网络开放体系白皮书 一、术语定义 表1 术语 定义 数据中心 DataCenter,特指集中承载企业IT信息服务或云计算的物理空间,通常由房间、楼宇和园区组成,通过机架安置服务器、网络和存储等IT设备,并提供必要的电力、制冷、动环、能源、安防和消防子系统支撑。 ODCC 开放数据中心委员会(OpenDataCenterCommittee) 智能传感 指支持即插即用、自诊断、自校准、标准连接、主动运维和数据分级的智能传感器,确保数据中心全生命周期都保持一致数据质量。智能传感指包括:综保装置、智能电量仪、温控仪、UPS/HVDC、电池检测仪、精密空调、温湿度传感器、漏水探测器、烟感、ATS、AHU、列头柜等具备标准接口和标准数据上传功能的智能终端设备。 可信数据 特指具备语义描述和质量定义的监控数据和运营数据,从采集、传输、存储、显示和访问的全过程都确保准确性、全面性、及时性、一致性和安全性。 数据治理 通过数据规则、算法分析或人工巡查,对数据从采集、传输、存储和访问全流程加质量校验,并对发现问题进行基于处理规则或状态预估进行清洗、标记或补偿,使得数据质量恢复或者标识状态。 自诊断 通过传感器硬件和软件设计,可自动判断传感器件或通信模块是否正常工作,并通过协议主动上报诊断状态 自校准 通过多探头设计或关联测点的算法设计,当发现采集数据有明显偏离,自动进行数据补偿,让采集数据精度总保持在最大误差允许范围内 主动运维 指智能传感自诊断故障后,自动上报故障码至运维中心,并触发派单,运维人员接单后通过智能储物柜获取备品备件,在承诺SLA时间内完成硬件更换,并恢复数据质量的过程 1 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 二、项目背景 目前数据中心部署海量传感器采集温度、湿度、电压、电流、气压等环境和设备状态,在设计阶段存在异构制式安装和调测复杂,在运营阶段存在精度漂移和采集异常无法及时发现,最终导致数据全生命周期成本较高且质量不统一。 图1数据中心传感器存在问题 可信数据是数据中心自动化和智能化运营的基础,要求准确的配置和符合质量定义的数据,其中数据质量包括数据精度、传输时延、采集稳定性、测点完整性、异常描述和预估补偿等方面。然而要实现完全的可信数据,目前主要在运营过程中进行针对性数据治理,但面对海量数据,治理占用大量资源、发现问题慢、治理效率低和效果巩固差。特别是面对直流霍尔或温湿度这样大量使用的传感器但是存在随时间发生的非线性精度漂移,依赖定期巡检或人工校准的方法覆盖率、准确率和及时性都面临挑战,错误的电流和温 2 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 湿度数据,将直接导致错误的PUE计算和热点告警,进一步影响成本分析、AI节能和机房升温等PUE综合优化措施的推广。 3 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 三、智能传感体系 本白皮书提出从数据源头实现可信数据,即从传感器层的设计、开发、部署、运营和维护全周期进行管理,改变传统数据中心建设和监控标准仅从功能规格、成本控制、质量等级和服务水平进行约束。从第一性原理出发,智能传感网络开放体系强调在数据中心全生命周期内保证一致的传感精度和数据质量,通过自校准和自诊断算法实现全自动免维护,并开放协议标准实现即插即用和主动运维,建立可信数据的统一标准规范。 图2智能传感网络概念 智能传感器核心设计支持自动诊断和自动校准,即通过多传感探头和多源校准算法实现上报数据总是满足精度要求;支持主动发现和变化上报的通信协议,统一通信和供电物理接口,实现传感器的即插即用;并增加带内/带外的传感状态主动上报,打通主动运维流程,实现1小时的SLA服务水平等级。最终实现在建设阶段工程 4 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 化思维演化为产品化思维,运营阶段实现免维护的全周期可信数据,维保阶段实现主动故障发现和更换,从而确保海量传感数据的质量和成本可控。 图3智能传感网络开放架构 5 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 四、开放通信协议 每个智能传感器具备统一编码规则生成的唯一设备标识,与上位机(数据采集器、智能网关或边端服务器)进行连接和握手后,通过北向接口在应用协议层发送设备标识实现即插即用,并在设备认证成功后支持带质量标签的变化数据主动上报,同时支持带外接口主动发送设备状态至主动运维服务,在硬件故障或精度漂移超限后能故障定位和发起变更流程进行更换。 图4开放通信协议 6 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 (一)设备标识 为实现设备自动发现和即插即用,采用统一编码规则实现每个设备唯一标识。设备标识包括ID规则、设备类型、厂商、产品型号、生产日期、设计寿命、固件版本、协议版本等。 用一组设备信息自定义寄存器对每个设备进行标识,以Modbus协议为例,设备信息自定义寄存器编码规则如下: 表2设备标识寄存器定义 寄存器 定义 说明 值举例 0xFFE0 设备唯一码 标识设备的唯一编码 如:0x010203040506表示设备唯一码标识是0x010203040506 0xFFE10xFFE20xFFE3 设备类别 设备类别编号 如:0x01表示交流电量仪 0xFFE4 设备厂商 设备厂商编号 如:0x02表示腾讯公司 0xFFE5 设备型号 设备型号编号 如:0x02表示TMAC01A型电量仪 0xFFE6 版本信息 高字节:硬件版本低字节:协议版本 如:0x0102代表硬件版本是1,协议版本是2 0xFFE7 出厂日期 高字节:出厂年份,以2000为元年低字节:出厂月份 如:0x1405代表2020年5月 (二)数据质量 数据质量指测点和数据集符合监控规范和SLA定义包括准确性、完整性、有效性、一致性、唯一性、及时性和应用性等标准的程度。数据质量标签(QoS)由智能传感采集程序根据通信状态、采样精度和校准算法等确定,包括正常、采集异常、超有效值域、初始值、空值、超量程、自动校准(标识数据被算法处理过)、精度漂移 7 数据中心智能传感网络开放体系白皮书ODCC-2023-06001 (算法已经无法校准)、校时失败、存储异常、通信中断和一致性错误等,质量标签可由多个数据处理节点例如采集器、监控系统和大数据服务根据数据治理规则进行标定。 1、数据质量标签 (1)标签定义 数据质量标签:所有采集数据和业务数据都需要带数据质量标签。数据标签继承:映射到该业务数据的所有采集数据测点的数据质量标签中,取优先级最高的数据质量标签映射到业务数据的数据。 表3数据质量标签 类型 名称 描述 采集质量标签码 业务数据质量标签 优先级 英文代码 是否应用于业务数据 是否由平台判断打标签 通讯中断 通讯中断 上报通讯中断或者设备通讯中断时,测点上报-99998 -200 Suspect 0 TelemetryFailure Y 命令发送错误 指令发送失败引起的中断 -201 Suspect 3 SendError 命令响应超时 响应报文超时引起的中断 -202 Suspect 4 RespTimeout 命令响应接收错误 响应报文接收不完整等引起的中断 -203 Suspect 5 RespError 报文无法解析 报文解析出现错误(可能驱动配置错误引起) -204 6 MessageError 协议驱动库打开失败 程序内部错误,无法打开对应的协议驱动库 -205 1 ProgramError 通道无法连接 IP或串口链路连

你可能感兴趣

hot

itango网络性能监控开放体系白皮书

信息技术
开放数据中心委员会2023-10-08
hot

数据中心智能无损网络白皮书

开放数据中心委员会2021-09-14
hot

数据中心暖通系统AI节能开放架构白皮书

信息技术
开放数据中心委员会2023-10-08
hot

D 数据中心双碳运营系统接口及建模体系白皮书

信息技术
开放数据中心委员会2023-10-08
hot

新型数据中心高安全技术体系白皮书

信息技术
开放数据中心委员会2022-09-15