登录
注册
回到首页
AI搜索
发现报告
发现数据
发现专题
研选报告
定制报告
VIP权益
发现大使
发现一下
热门搜索:
AIGC
新质生产力
低空经济
DeepSeek
对等关税
当前位置:首页
/
行业研究
/
报告详情
/
优化数据中心基础设施的性能与可靠性:采用替代内存故障保护解决方案
信息技术
2022-06-23
2021 OCP Global Summit 会议
徐***
AI智能总结
查看更多
数据中心基础设施中替代内存故障保护方案优化性能与可靠性
内存故障
内存故障是导致服务器停机的主要原因之一。
每一代DDR的密度和速度增加导致内存故障率上升。
当前的内存错误分类方法已达到极限,难以有效识别故障DIMM。
内存错误类型
DIMM故障
:未观察到的故障原因,包括软故障(粒子、宇宙射线)和硬故障(磨损、制造缺陷)。
DIMM错误
:由故障引起的症状,通常由固件或操作系统报告(如MCE日志、SEL日志)。
可纠正错误(CE)
:可以通过ECC或芯片杀技术纠正的错误。
不可纠正错误(UE)
:灾难性故障,通常导致系统崩溃。
内存故障的影响
内存故障会导致意外停机,需要手动更换DIMM。
新DDR代际带来的高密度和高速度增加了单比特错误的可能性。
传统内存处理流程
SMI处理器 -> BIOS/FW -> 内存错误转发器 -> BMC/FW -> 硬件(处理器、内存等)
常用阈值方法确定内存故障,但存在局限性。
内存故障预测需求
使用阈值方法可以知道内存何时失效,但能否在实际失效前预测?
如果能够预测内存故障:
可以提前卸载受影响的DIMM。
可以在发生系统崩溃前进行维护。
构建内存预测算法
类似于构建任何机器学习模型,需要大量数据。
可以通过分析失败DIMM的历史错误模式来发现未来故障的模式。
使用内存模型
上游聚合点可通过RESTful API收集MHRS信息。
实例:腾讯和美团的实际应用结果。
实际效果
5倍提升DIMM故障预测,减少停机时间。
简化工作负载迁移策略。
优化页面卸载策略。
减少不必要的内存更换和升级成本。
预测内存故障并减少不可纠正错误。
进一步改进
将CE错误处理直接由BMC通过平台接口完成。
继续利用预测算法和健康评分聚合,以获得实际效益。
行动呼吁
内存故障将继续成为行业问题。
内存故障预测具有实际益处。
创建模型需要时间和数据。
让我们一起寻找新的内存故障预测方式,提高整体计算性能!
开放讨论
鼓励进一步探讨和合作。
查看更多
你可能感兴趣
电动汽车充电基础设施建设与运营的优化解决方案:以上海为例
自然资源保护协会
2023-05-15
大数据协同中的隐私与可靠性保护
信息技术
腾讯
2022-08-24
陶氏新加坡电力识别并消除有害瞬态以提高系统可靠性并延长基础设施资产的有效使用寿命。
xylem
2019-10-10
通信行业重大事项点评:发改委发布《推动数据中心和5G等新型基础设施绿色高质量发展》,加速推动行业格局优化
信息技术
华创证券
2021-12-09
优化抗灾能力:通过建筑规范和基础设施保护社会(英)2024
建筑建材
剑桥风险研究中心
2024-10-28