记一次NVIDIA GPU ECC故障
现象
跑程序意外退出,crash在cpp里面了,随机复现,无法定位
排查
查看dmesg发现DBE
赶紧查看一下ECC count
1 | nvidia-smi -q -d ECC |
好的直接换卡。
错误类型
错误类型 | 可修复性 | 严重性 | 建议行动 |
---|---|---|---|
SRAM Correctable (SBE) | 可自动修复 | 低 | 监控趋势 |
DRAM Correctable (SBE) | 可自动修复 | 低 | 监控趋势 |
SRAM Uncorrectable Parity | 不可修复 | 高 | 立即调查 |
DRAM Uncorrectable (DBE) | 不可修复 | 高 | 立即调查 |
Reference
nvidia-smi 文档:nvidia-smi - NVIDIA System Management Interface program
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 JMY Space!