nvidia 查看拓扑
在国外的H100机器上查看GPU拓扑
1 | nvidia-smi topo -m |
SYS (System): 表示通过系统互连(如QPI/UPI总线)连接的设备。
- 这是最慢的连接方式,通常需要完整的数据往返系统内存
- 两个设备之间的通信必须通过系统内存(主机内存)进行
- 数据传输需要经过 CPU 和系统总线
- 两个设备之间没有直接的点对点(P2P)连接
NODE: 表示NUMA节点内的连接 NUMA Node Connection,即设备位于同一个NUMA节点内。
NUMA 是一种计算机内存设计,其中内存访问时间取决于内存相对于处理器的位置。在大型服务器系统中,可能有多个 NUMA 节点,每个节点包含自己的处理器、内存和 I/O 设备。
- 两个设备位于同一个 NUMA(非统一内存访问)节点内
- 它们共享同一个内存控制器和本地内存
- 虽然仍然需要通过系统内存通信,但延迟通常比 SYS 连接低
- 在多处理器系统中特别相关
NV# (如NV18): 表示通过NVIDIA NVLink连接的设备,数字表示NVLink的带宽或版本。
PIX (PCI Express Switch): 同一 PCIe 交换机下的 GPU,如ROCE,IB网络。
- 数据路径:GPU → PCIe → GPU
- 完全支持P2P
PXB (PCI Express Bridge): 不同 PCIe 交换机但同一 PCIe 段的 GPU
- 数据路径:GPU → PCIe → PCIe桥 → PCIe → GPU
- 支持P2P
PHB (PCI Host Bridge): 表示不同 PCIe 根复合体的 GPU ,通过PCI主机桥连接的设备。
- 数据路径: GPU → PCIe → 主机桥 → PCIe → GPU
- 有限支持P2P
NIC 是Network Interface Card ,上图每个GPU都有一个IB网卡
Reference: nvidia-smi - NVIDIA System Management Interface program
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 JMY Space!