最近发现 H100 集群 IB 网络通信有问题。跑 DeepEP,MoonCake 都会有通信报错。nccl init 也很慢。

正常跑 ibsend 啥的都没问题。

命令:

1
lspci -d 15b3::0207 -n | awk '{print $1}' | xargs -I{} sh -c 'echo {} && mlxlink -d {} -c | grep -e Effective -e Raw' |tee /tmp/mlxlink_$(date +%Y-%m-%d_%H-%M-%S).log

lspci -d 15b3::0207 -n 查找 IB 网卡。15b3::0207是产品 ID

mlxlink -d device -c 列出 Error 以及 BER(Bit Error Rate 误码率)

此命令输出到终端,并且写入文件/tmp/mlxlink_xxx.log

mlxlink 输出结果样例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
Operational Info
----------------
State : Active
Physical state : LinkUp
Speed : IB-NDR
Width : 4x
FEC : Ethernet_Consortium_LL_50G_RS_FEC_PLR -(272,257+1)
Loopback Mode : No Loopback
Auto Negotiation : ON

Supported Info
--------------
Enabled Link Speed : 0x00000080 (NDR)
Supported Cable Speed : 0x00000080 (NDR)

Troubleshooting Info
--------------------
Status Opcode : 0
Group Opcode : N/A
Recommendation : No issue was observed

Tool Information
----------------
Firmware Version : 28.39.3004
amBER Version : 2.22
MFT Version : mft 4.26.1-3

Physical Counters and BER Info
------------------------------
Time Since Last Clear [Min] : 1744.3
Symbol Errors : 0
Symbol BER : 15E-255
Effective Physical Errors : 16
Effective Physical BER : 3E-16
Raw Physical Errors Per Lane : 185219462,14538251,3096793152,798004665
Raw Physical BER : 1E-7
Link Down Counter : 0
Link Error Recovery Counter : 0

关注 Raw Physical BER,但两者都要看

优先级和用途

🎯 Raw Physical BER - 主要关注对象

  • 作用:反映真实的物理层健康状况
  • 含义:未经任何纠错处理的原始误码率
  • 用途:硬件故障诊断的第一指标

📊 Effective Physical BER - 辅助参考

  • 作用:反映实际数据传输质量
  • 含义:经过 FEC 纠错后的最终误码率
  • 用途:评估当前链路可用性

判断逻辑流程


实际案例分析

以你之前的数据为例:

1
2
Raw Physical BER     : 2E-8     ← 🚨 严重超标(正常<1E-12)
Effective Physical BER: 2E-17 ← ✅ 纠错后正常

解读

  1. Raw BER = 2E-8:物理层存在严重问题,需要立即更换硬件
  2. Effective BER = 2E-17:FEC 正在拼命纠错,暂时保证数据正确性
  3. 风险:一旦错误突发超过 FEC 能力,会出现数据损坏

告警阈值设置

BER 类型 正常 警告 严重 紧急
Raw BER <1E-15 1E-12 1E-9 >1E-8
Effective BER <1E-15 1E-12 1E-9 >1E-6

总结:Raw BER 是硬件健康的晴雨表,Effective BER 是当前服务质量的体现。故障排查时 Raw BER 是决策依据