使用 Prometheus 抓取硬盘 S.M.A.R.T 信息

§前言

家里的存储机器上有一块 16 T 的机械硬盘，还没有集成进家中的 PLG (Prometheus + Loki + Grafana) 监控系统中，需要将这块拼图给补全，监控起它的 S.M.A.R.T 信息，并配上相应指标的告警，省得哪天硬盘突然暴毙。因为家中的监控告警体系还在施工中，目前先补齐监控体系中必需的数据源和监控面板，后需再单独撰文记录告警体系的搭建。

§配置监控面板

下面简单列举一下支持的面板，可以导入后根据需要来调整：

13654 - S.M.A.R.T Dashboard | Grafana Labs
- 推荐，直接导入就能用，信息展示简介清晰，该有的都有
16514 - SMART + NVMe status | Grafana Labs
- 不太推荐，导入后部分指标无法展示，需要调整查询语句，作者写了篇博客介绍如何使用这个面板，以及一些告警配置，可以参考一下

关于这些指标怎么用，如何确定该关注哪些指标，如何配置合理的告警条件，可以参考下面的文章：

Monitoring a mixed fleet of flash, HDD, and NVMe devices with node_exporter and Prometheus | Wireworld
- 上面提到的 16514 这个面板的作者分享的关于他如何监控自家的存储设备的文章
What SMART Hard Disk Errors Actually Tell Us
- 知名云存储和数据备份备份供应商 Backblaze 分享的文档，很有参考价值

最后，如果你和俺一样用的是希捷的机械硬盘（HDD），发现监控到的 Raw Read Error 和 Seek Error Rate 特别高，这是因为希捷的固件中，这两个指标中同时存放了【操作次数】和【错误次数】，原始值共 48 bit（二进制 48 位），转换到 16 进制共 12 位，其中高 4 位存放的是【错误次数】，低 8 位存放【操作次数】。也就是希捷硬盘的 S.M.A.R.T 数据中，这两个值需要转换为 16 进制来看，不够 12 位的在高位补 0，然后只看高 4 位才是对应指标的【错误次数】。

简单来说，只要这两个值没有超过 4294967295 就没有问题（十进制值，对应 16 进制的 FFFFFFFF），详细解释可以参考这篇文章。其他厂商的硬盘没有这个问题。

参考链接：

使用 Prometheus 抓取硬盘 S.M.A.R.T 信息

§前言

§采集指标

§配置监控面板

§小尾巴

使用 Prometheus 抓取硬盘 S.M.A.R.T 信息

§前言

§采集指标

§配置监控面板

§小尾巴

相关文章：