npu-smi命令介绍
- 信息查询(info)
- 查询基本信息
- 查询芯片监控数据
- 查询所有NPU设备
- 查询所有芯片映射关系信息
- 查询具体卡信息
- 查询所有芯片常用信息
- 查询所有芯片闪存信息
- 查询所有芯片内存信息
- 查询所有芯片统计信息
- 查询所有芯片温度
- 查询所有芯片功率
- 查询所有芯片电压
- 查询所有芯片健康状态
- 查询所有芯片的ssh使能状态
- 查询所有芯片ECC错误计数
- 查询ECC使能状态
- 查询p2p使能状态
- 查询指定芯片信息
- 查询指定芯片温度
- 查询指定芯片功率
- 查询指定芯片电压
- 查询指定芯片统计信息
- 查询指定芯片闪存信息
- 查询指定芯片内存信息
- 查询指定芯片健康状态
- 查询指定芯片的ssh使能状态
- 查询指定芯片ECC错误计数
- 查询NPU与MCU之间的IIC通道是否正常
- 查询指定芯片的产品类型
- 查询指定芯片的Matrix进程监控数据
- 查询用户证书
- 查询AI芯片的IP信息
- 查询所有芯片的PCIE误码计数
- 查询指定芯片的PCIE误码计数
- 配置功能(set)
- 升级功能(upgrade)
- 查询npu-smi工具版本
- 查询帮助
信息查询(info)
查询基本信息
命令功能
npu-smi info 用于查询所有设备的基本信息。
命令格式
npu-smi info
使用指南
无。
使用实例
#查询所有设备的基本信息。
npu-smi info
+------------------------------------------------------------------------------+ | npu-smi 20.0.1 Version: 1.73.5.10.050 | +-------------------+-----------------+----------------------------------------+ | NPU Name | Health | Power(W) Temp(C) | | Chip Device | Bus-Id | AICore(%) Memory-Usage(MB) | +===================+=================+========================================+ | 2049 310 | OK | 12.8 50 | | 0 0 | 0000:85:00.0 | 0 2621 / 8192 | +-------------------+-----------------+----------------------------------------+ | 2049 310 | OK | 12.8 51 | | 1 1 | 0000:86:00.0 | 0 2621 / 8192 | +-------------------+-----------------+----------------------------------------+ | 2049 310 | OK | 12.8 52 | | 2 2 | 0000:87:00.0 | 0 2621 / 8192 | +-------------------+-----------------+----------------------------------------+ | 2049 310 | OK | 12.8 55 | | 3 3 | 0000:88:00.0 | 0 2621 / 8192 | +===================+=================+========================================+
查询芯片监控数据
命令功能
npu-smi info watch -i id -c chip_id -d delay_seconds -s watch_type 用于查询所有或单个芯片的监控数据。
命令格式
npu-smi info watch -i id -c chip_id -d delay_seconds -s watch_type
使用指南
无。
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
delay_seconds |
每轮查询延迟时长,单位为秒。 |
watch_type |
监控类型。p代表功率,t代表温度,a代表ai core占用率,i代表ai cpu占用率,c代表control cpu占用率,m代表内存占用率,b代表内存带宽占用率。 |
使用实例
#查询设备199编号为2的芯片的监控数据。
npu-smi info watch -i 199 -c 2 -d 5 -s ptaicmb
Npu ID Chip Id Pwr Temp AI Core AI Cpu Ctrl Cpu Memory Memory BW Idx Idx W C % % % % % 199 2 12.8 54 0 0 0 29 0 199 2 12.8 54 0 0 0 29 0 199 2 12.8 54 0 0 0 29 0 199 2 12.8 54 0 0 0 29 0 199 2 12.8 54 0 0 0 29 0
查询所有NPU设备
命令功能
npu-smi info -l 用于查询所有NPU设备。
命令格式
npu-smi info -l
使用指南
虚拟机和docker容器中不支持查询product Name,Serial Number域。
使用实例
#查询所有NPU设备的相关信息。
npu-smi info -l
Total Count : 2 NPU ID : 0 Product Name : NPU Serial Number : RFD1644N48373 Chip Count : 4 NPU ID : 1 Product Name : NPU Serial Number : RFD1644N48374 Chip Count : 4
查询所有芯片映射关系信息
命令功能
npu-smi info -m 用于查询所有芯片的映射关系信息。
命令格式
npu-smi info -m
使用指南
虚拟机和docker容器中不显示MCU信息。
使用实例
#查询目前所有芯片的映射关系信息。
npu-smi info -m
NPU ID Chip ID Chip Logic ID Chip Name 18 0 0 MiniD 35 0 1 MiniD
查询具体卡信息
命令功能
npu-smi info -t board -i id 用于查询具体卡的board信息。
命令格式
npu-smi info -t board -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
虚拟机和docker容器中不支持查询具体卡的board信息。
使用实例
#查询设备1的具体信息。
npu-smi info -t board -i 1
NPU ID : 1 Product Name : NPU Model : Hi*** Manufacturer : Huawei Serial Number : RFD1644N48373 Software Version : 1.1.0T.B600 Firmware Version : 1.1.0.600 Board ID : 0xfc PCB ID : C BOM ID : 0 PCIe Bus Info : 0000:2d:00.0 Slot ID : 1 Class ID : NA PCI Vendor ID : 0x19E5 PCI Device ID : 0xD100 Subsystem Vendor ID : 0x0200 Subsystem Device ID : 0x0100 Chip Count : 4 Chip fault : 0
查询所有芯片常用信息
命令功能
npu-smi info -t common -i id 用于查询所有芯片常用信息。
命令格式
npu-smi info -t common -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#查询设备1中所有芯片的常用信息。
npu-smi info -t common -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Memory Usage Rate(%) : 30 Aicore Usage Rate(%) : 0 Temperature(C) : 46 Rated Power Dissipation(W) : 12.8 Chip ID : 1 Memory Usage Rate(%) : 30 Aicore Usage Rate(%) : 0 Temperature(C) : 47 Rated Power Dissipation(W) : 12.8 Chip ID : 2 Memory Usage Rate(%) : 30 Aicore Usage Rate(%) : 0 Temperature(C) : 48 Rated Power Dissipation(W) : 12.8 Chip ID : 3 Memory Usage Rate(%) : 30 Aicore Usage Rate(%) : 0 Temperature(C) : 48 Rated Power Dissipation(W) : 12.8 Chip Name : MCU Temperature(C) : 45 Power Dissipation(W) : 19.6
以上回显中,固件版本为1.73.5.5及之下Chip Name显示为Chip ID。
查询所有芯片闪存信息
命令功能
npu-smi info -t flash -i id 用于查询所有芯片的闪存信息。
命令格式
npu-smi info -t flash -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
无。
使用实例
#查询设备1中所有芯片的闪存信息。
npu-smi info -t flash -i 1
npu id : 1 chip count : 4 chip id : 0 flash count : 1 flash id : 624427202 manufacturer id : 0xc2 capacity(mb) : 16 chip id : 1 flash count : 1 flash id : 624427202 manufacturer id : 0xc2 capacity(mb) : 16 chip id : 2 flash count : 1 flash id : 624427202 manufacturer id : 0xc2 capacity(mb) : 16 chip id : 3 flash count : 1 flash id : 624427202 manufacturer id : 0xc2 capacity(mb) : 16
查询所有芯片内存信息
命令功能
npu-smi info -t memory -i id 用于查询所有芯片的内存信息。
命令格式
npu-smi info -t memory -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
无。
使用实例
#查询设备1的所有芯片的内存信息。
npu-smi info -t memory -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Capacity(MB) : 8192 Clock Speed(MHz) : 400 Chip ID : 1 Capacity(MB) : 8192 Clock Speed(MHz) : 400 Chip ID : 2 Capacity(MB) : 8192 Clock Speed(MHz) : 400 Chip ID : 3 Capacity(MB) : 8192 Clock Speed(MHz) : 400
查询所有芯片统计信息
命令功能
npu-smi info -t usages -i id 用于统计所有芯片的利用状况信息。
命令格式
npu-smi info -t usages -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
无。
使用实例
#查询设备1所有芯片内存等利用状况信息。
npu-smi info -t usages -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Memory Capacity(MB) : 8192 Memory Usage Rate(%) : 38 Aicore Usage Rate(%) : 50 Aicpu Usage Rate(%) : 3 Ctrlcpu Usage Rate(%) : 0 Memory Bandwidth Usage Rate(%) : 13 Chip ID : 1 Memory Capacity(MB) : 8192 Memory Usage Rate(%) : 40 Aicore Usage Rate(%) : 0 Aicpu Usage Rate(%) : 1 Ctrlcpu Usage Rate(%) : 0 Memory Bandwidth Usage Rate(%) : 4 Chip ID : 2 Memory Capacity(MB) : 8192 Memory Usage Rate(%) : 39 Aicore Usage Rate(%) : 0 Aicpu Usage Rate(%) : 1 Ctrlcpu Usage Rate(%) : 0 Memory Bandwidth Usage Rate(%) : 3 Chip ID : 3 Memory Capacity(MB) : 8192 Memory Usage Rate(%) : 39 Aicore Usage Rate(%) : 55 Aicpu Usage Rate(%) : 0 Ctrlcpu Usage Rate(%) : 0 Memory Bandwidth Usage Rate(%) : 13
查询所有芯片温度
命令功能
npu-smi info -t temp -i id 用于查询所有芯片的温度。
命令格式
npu-smi info -t temp -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
虚拟机和docker容器中不显示MCU信息。
使用实例
#查询设备1的所有芯片的温度。
npu-smi info -t temp -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Temperature(C) : 43 Chip ID : 1 Temperature(C) : 46 Chip ID : 2 Temperature(C) : 45 Chip ID : 3 Temperature(C) : 45 Temperature (C) : 39 Chip Name : MCU
以上回显中,固件版本为1.73.5.5及之下Chip Name显示为Chip ID。
查询所有芯片功率
命令功能
npu-smi info -t power -i id 用于查询所有芯片的功率。
命令格式
npu-smi info -t power -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
虚拟机和docker容器中不显示MCU信息。
使用实例
#查询设备1的所有芯片的功率。
npu-smi info -t power -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Rated Power Dissipation(W) : 12.8 Chip ID : 1 Rated Power Dissipation(W) : 12.8 Chip ID : 2 Rated Power Dissipation(W) : 12.8 Chip ID : 3 Rated Power Dissipation(W) : 12.8 Power Dissipation(W) : 21.9 Chip Name : MCU
以上回显中,固件版本为1.73.5.5及之下Chip Name显示为Chip ID。
查询所有芯片电压
命令功能
npu-smi info -t volt -i id 用于查询所有芯片的电压。
命令格式
npu-smi info -t volt -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
虚拟机和docker容器中不显示MCU信息。
使用实例
#查询设备1的所有芯片电压信息。
npu-smi info -t volt -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Voltage (V) : 0.80 Chip ID : 1 Voltage (V) : 0.80 Chip ID : 2 Voltage (V) : 0.80 Chip ID : 3 Voltage (V) : 0.80 Voltage (V) : 11.88 Chip Name : MCU
以上回显中,固件版本为1.73.5.5及之下Chip Name显示为Chip ID。
查询所有芯片健康状态
命令功能
npu-smi info -t health -i id 用于查询所有芯片的健康状态。
命令格式
npu-smi info -t health -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
虚拟机和docker容器中不显示MCU状态。
使用实例
#查询设备1所有芯片的健康状态。
npu-smi info -t health -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Health : OK Chip ID : 1 Health : OK Chip ID : 2 Health : OK Chip ID : 3 Health : OK Health : OK Chip Name : MCU
以上回显中,固件版本为1.73.5.5及之下Chip Name显示为Chip ID。
查询所有芯片的ssh使能状态
命令功能
npu-smi info -t ssh-enable -i id 用于查询所有芯片的ssh使能状态。
命令格式
npu-smi info -t ssh-enable -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
无。
使用实例
#查询设备1所有芯片的ssh使能状态。
npu-smi info -t ssh-enable -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 SSH-Enable Status : False Chip ID : 1 SSH-Enable Status : False Chip ID : 2 SSH-Enable Status : False Chip ID : 3 SSH-Enable Status : False
查询所有芯片ECC错误计数
命令功能
npu-smi info -t ecc -i id 用于查询所有芯片的ECC错误计数。
命令格式
npu-smi info -t ecc -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
无。
使用实例
#查询设备1所有芯片的ECC错误统计。
npu-smi info -t ecc -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Single Bit Error Count : 0 Double Bit Error Count : 0 Chip ID : 1 Single Bit Error Count : 0 Double Bit Error Count : 0 Chip ID : 2 Single Bit Error Count : 0 Double Bit Error Count : 0 Chip ID : 3 Single Bit Error Count : 0 Double Bit Error Count : 0
查询ECC使能状态
命令功能
npu-smi info -t ecc-enable -i id 用于查询PCIe卡的ECC使能状态。
命令格式
npu-smi info -t ecc-enable -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
无。
使用实例
#查询设备1的ECC使能状态。
npu-smi info -t ecc-enable -i 1
ECC-Enable Status : True
查询p2p使能状态
命令功能
npu-smi info -t p2p-enable -i id 用于查询PCIe卡的p2p使能状态。
命令格式
npu-smi info -t p2p-enable -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info --l命令查出的NPU ID即为设备id。 |
使用指南
无。
使用实例
#查询设备1的p2p使能状态。
npu-smi info -t p2p-enable -i 1
p2p-Enable Status : False
查询指定芯片信息
命令功能
npu-smi info -t board -i id -c chip_id 用于查询PCIe卡上某一芯片的board信息。
命令格式
npu-smi info -t board -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为1的芯片的board信息。
npu-smi info -t board -i 1 -c 1
NPU ID : 1 Chip ID : 1 Chip Type : HIXXXX Chip Name : HI1910 Board ID : 0x01 PCB ID : @ BOM ID : 0 Die ID : V100, 918F2194 2161A900 AC443652 0100A8C0 8E100063 SLOT ID : 2 PCIe Bus Info : 0000:33:00.0 firmware Version : 1.1.0.600
查询指定芯片温度
命令功能
npu-smi info -t temp -i id -c chip_id 用于查询某个芯片的温度。
命令格式
npu-smi info -t temp -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为1的芯片的温度。
npu-smi info -t temp -i 1 -c 1
Temperature (C) : 49
查询指定芯片功率
命令功能
npu-smi info -t power -i id -c chip_id 用于查询某个芯片的功率。
命令格式
npu-smi info -t power -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为1的芯片功率。
npu-smi info -t power -i 1 -c 1
Rated Power Dissipation(W) : 12.8
查询指定芯片电压
命令功能
npu-smi info -t volt -i id -c chip_id 用于查询某个芯片的电压。
命令格式
npu-smi info -t volt -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info --l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用说明
无。
使用实例
#查询设备1中编号为1的芯片的电压。
npu-smi info -t volt -i 1 -c 1
Voltage(V) : 0.80
查询指定芯片统计信息
命令功能
npu-smi info -t usages -i id -c chip_id 用于查询某个芯片的统计信息。
命令格式
npu-smi info -t usages -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为1的芯片的统计信息。
npu-smi info -t usages -i 1 -c 1
Memory Capacity(MB) : 8192 Memory Usage Rate(%) : 30 Aicore Usage Rate(%) : 5 Aicpu Usage Rate(%) : 1 Ctrlcpu Usage Rate(%) : 0 Memory Bandwidth Usage Rate(%) : 12
查询指定芯片闪存信息
命令功能
npu-smi info -t flash -i id -c chip_id 用于查询某个芯片的闪存信息。
命令格式
npu-smi info -t flash -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为1的芯片的闪存信息。
npu-smi info -t flash -i 1 -c 1
Flash Count : 1 Flash ID : 624427202 Manufacturer ID : 0xC2 Capacity(MB) : 16
查询指定芯片内存信息
命令功能
npu-smi info -t memory -i id -c chip_id 用于查询某个芯片的内存信息。
命令格式
npu-smi info -t memory -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为1的芯片的内存信息。
npu-smi info -t memory -i 1 -c 1
Capacity(MB) : 8192 Clock Speed(MHz) : 1600
查询指定芯片健康状态
命令功能
npu-smi info -t health -i id -c chip_id 用于查询某个芯片的健康状态。
命令格式
npu-smi info -t health -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为1的芯片的健康状态。
npu-smi info -t health -i 1 -c 1
Health Status : OK Error Code : NA Error Information : NA
Health Status : Alarm Error Code : 1D5B 1D51 1D55 1D58 1D60 1C1F 1C1C 1D8F 1D4C Error Information : : 7515 : 7505 : 7509 : 7512 : 7520 : 7199 : 7196 : 7567 : 7500
查询指定芯片的ssh使能状态
命令功能
npu-smi info -t ssh-enable -i id -c chip_id 用于查询某个芯片的ssh使能状态。
命令格式
npu-smi info -t ssh-enable -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为0的芯片的ssh使能状态。
npu-smi info -t ssh-enable -i 1 -c 0
SSH-Enable Status : False
查询指定芯片ECC错误计数
命令功能
npu-smi info -t ecc -i id -c chip_id 用于查询某个芯片的ECC错误计数。
命令格式
npu-smi info -t ecc -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
无。
使用实例
#查询设备1中编号为1的芯片的ECC错误计数。
npu-smi info -t ecc -i 1 -c 1
Single Bit Error Count : 25 Double Bit Error Count : 0
查询NPU与MCU之间的IIC通道是否正常
命令功能
npu-smi info -t i2c_check -i id 用于查询NPU与MCU之间的IIC通道是否正常。
命令格式
npu-smi info -t i2c_check -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#查询设备1与MCU之间的IIC通道状态。
npu-smi info -t i2c_check -i 1
Checking... Please do not interrupt! miniD 1 to MCU iic channel status: OK miniD 3 to MCU iic channel status: OK MCU to miniD 0 iic channel status: OK MCU to miniD 1 iic channel status: OK MCU to miniD 2 iic channel status: OK MCU to miniD 3 iic channel status: OK
查询指定芯片的产品类型
命令功能
npu-smi info -t product -i id -c chip_id 用于查询指定AI芯片的产品类型。
命令格式
npu-smi info -t product -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。 通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。 如果有4个芯片,则编号为0、1、2、3。 |
使用指南
- 对于NPU 1.X.X系列版本:NPU 1.4.0及以上版本支持此命令。
- 对于NPU 20.X.X系列版本:所有版本均支持此命令。
使用实例
#查询设备0,编号为2的AI芯片的产品类型。具体产品型号以实际查询的产品为准。
- 对于NPU 1.X.X、NPU 20.0.X以及NPU 20.1.X系列版本,如下:
npu-smi info -t product -i 0 -c 2 product type: Atlas 300 Model 3010.
查询指定芯片的Matrix进程监控数据
命令功能
npu-smi info proc -i id -c chip_id -d delay_seconds 用于查询指定芯片的Matrix进程监控数据。
命令格式
npu-smi info proc -i id -c chip_id -d delay_seconds
参数说明
类型 |
描述 |
---|---|
id |
设备id。 通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。 如果有4个芯片,则编号为0、1、2、3。 |
delay_seconds |
每轮查询延迟时长,单位为秒。默认为1秒,取值范围:1~100。 |
使用指南
该命令只能在Atlas 300I 推理卡NPU版本为1.4.0情况下使用。
使用实例
#查询设备0,编号为2的芯片在2s内的Matrix进程监控数据。
npu-smi info proc -i 0 -c 2 -d 2 Npu ID Chip Id PID Memory% AI Cpu% 0 2 0 0.0 0.0 0 2 1 0.0 0.0 0 2 2 0.0 0.0 0 2 3 100.0 100.0 0 2 4 100.0 100.0 0 2 5 100.0 100.0 0 2 6 38.3 88.6 0 2 7 77.7 91.5 0 2 8 79.3 33.5
查询用户证书
命令功能
npu-smi info -t license -i id 用于查询用户的证书。
命令格式
npu-smi info -t license -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。 通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
- 对于NPU 1.X.X系列版本:该命令仅支持npu-smi及MCU版本为1.4.0及以上版本。
- 对于NPU 20.X.X系列版本:所有版本均支持此命令。
- 虚拟机和docker容器中不支持该命令。
使用实例
#获取设备1的证书为abcde。
npu-smi info -t license -i 1
License : abcde
查询AI芯片的IP信息
命令功能
npu-smi info -t ip -i id -c chip_id 用于查询AI芯片的IP信息。
命令格式
npu-smi info -t ip -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。 通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。 如果有4个芯片,则编号为0、1、2、3。 |
使用指南
- 对于NPU 1.X.X系列版本:NPU 1.4.1及以上版本支持此命令。
- 对于NPU 20.X.X系列版本:所有版本均支持此命令。
使用实例
#查询设备0中编号为0的AI芯片的IP信息。
npu-smi info -t ip -i 0 -c 0
ip : 192.168.4.199 netmask : 255.255.255.0
查询所有芯片的PCIE误码计数
命令功能
npu-smi info -t err-count -i id 用于查询所有芯片PCIE误码计数。
命令格式
npu-smi info -t err-count -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。 通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
该命令仅支持NPU 20.1.X系列版本。
使用实例
#查询设备1所有芯片的PCIE误码统计。
npu-smi info -t err-count -i 1
NPU ID : 1 Chip Count : 4 Chip ID : 0 Pcs Rx Error Count : 25 Phy Lane Error Count : 0 Dl Lcrc Error Count : 25 Dl Dcrc Error Count : 0 Chip ID : 1 Pcs Rx Error Count : 25 Phy Lane Error Count : 0 Dl Lcrc Error Count : 25 Dl Dcrc Error Count : 0 Chip ID : 2 Pcs Rx Error Count : 25 Phy Lane Error Count : 0 Dl Lcrc Error Count : 25 Dl Dcrc Error Count : 0 Chip ID : 3 Pcs Rx Error Count : 25 Phy Lane Error Count : 0 Dl Lcrc Error Count : 25 Dl Dcrc Error Count : 0
查询指定芯片的PCIE误码计数
命令功能
npu-smi info -t err-count -i id -c chip_id 用于查询指定芯片的PCIE误码计数。
命令格式
npu-smi info -t err-count -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
该命令仅支持NPU 20.1.X系列版本。
使用实例
#查询设备1中编号为1的芯片的PCIE误码计数。
npu-smi info -t err-count -i 1 -c 1
Pcs Rx Error Count : 25 Phy Lane Error Count : 0 Dl Lcrc Error Count : 25 Dl Dcrc Error Count : 0
配置功能(set)
配置所有芯片的ssh使能状态
命令格式
npu-smi set -t ssh-enable -i id -d value
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
value |
ssh使能状态:分为禁用、使能。
|
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#开启设备1中所有芯片的ssh使能。
npu-smi set -t ssh-enable -i 1 -d 1
Status : OK Message : Set ssh-enable successfully, need reset card to active.
配置指定芯片的ssh使能状态
命令功能
npu-smi set -t ssh-enable -i id -c chip_id -d value用于配置指定芯片的ssh使能状态。
命令格式
npu-smi set -t ssh-enable -i id -c chip_id -d value
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
value |
ssh使能模式:分为禁用、使能。
|
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#禁用设备1中编号为0的芯片的ssh使能。
npu-smi set -t ssh-enable -i 1 -c 0 -d 0
Status : OK Message : Set ssh-enable successfully, need reset chip to active.
配置ECC使能状态
命令功能
npu-smi set -t ecc-enable -i id -d value 用于配置所有芯片的ECC使能状态。
命令格式
npu-smi set -t ecc-enable -i id -d value
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
value |
ECC模式:分为禁用、使能。
|
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#开启设备1的ECC使能。
npu-smi set -t ecc-enable -i 1 -d 1
Status : OK Message : Set ecc-enable successfully
配置p2p使能状态
命令功能
npu-smi set -t p2p-enable -i id -d value 用于配置所有芯片的p2p使能状态。
命令格式
npu-smi set -t p2p-enable -i id -d value
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
value |
p2p模式:分为禁用、使能。
|
使用指南
- 对于NPU 1.X.X系列版本,暂不支持配置芯片的p2p模式为使能,支持配置芯片的p2p模式为禁用。
- 对于NPU 20.X.X系列版本,没有此命令。
- 虚拟机和docker容器中不支持该命令。
使用实例
#禁用设备1的p2p使能。
npu-smi set -t p2p-enable -i 1 -d 0
Status : OK Message : Set p2p-enable successfully
收集日志
命令功能
npu-smi set -t collect-log -i id用于收集MCU的日志。对于NPU 1.X.X系列和NPU 20.0.0版本,收集的日志存放在/tmp目录下;对于NPU 20.0.0以上、NPU 20.1.X系列版本,收集的日志存放在/run目录下。
命令格式
npu-smi set -t collect-log -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#收集设备1的MCU的日志。
npu-smi set -t collect-log -i 1
type(0): file_len(203198)--offset(203198) [100]. collect log success,(0). type(1): file_len(101991)--offset(101991) [100]. collect log success,(1). type(2): file_len(101376)--offset(101376) [100]. collect log success,(2).
复位标卡
软件准备
带外标卡复位功能依赖ipmitool软件,需要提前下载并加载驱动。
- 下载ipmitool软件:
- CentOS和EulerOS:yum install ipmitool
- Ubuntu:apt-get install ipmitool
- 加载驱动:
modprobe ipmi_si
modprobe ipmi_devintf
modprobe ipmi_msghandler
命令功能
npu-smi set -t reset -i id [-m 1]用于复位PCIe卡。
命令格式
npu-smi set -t reset -i id [-m 1]
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
- 虚拟机和docker容器中不支持该命令。
- 业务运行过程中,请不要执行此命令。
- 以上命令中[-m 1]表示可选参数,如果使用该参数表示通过带内复位标卡,否则表示通过带外复位标卡。该参数仅支持NPU 20.1.X系列版本使用。
- 带外复位标卡需要依赖iBMC,为保障复位功能,请升级服务器iBMC到最新的版本。
- 标卡复位成功后,请至少等待20s,再执行当前或其他标卡、芯片信息查询操作,请耐心等待。
使用实例
#通过带外复位设备1。
npu-smi set -t reset -i 1
Status : OK Message : Reset card successfully
#通过带内复位设备77。
npu-smi set -t reset -i 77 -m 1
Message : resetting ... Status : OK Message : Reset card successfully
复位芯片
软件准备
带外芯片复位功能依赖ipmitool软件,需要提前下载并加载驱动。
- 下载ipmitool软件:
- CentOS和EulerOS:yum install ipmitool
- Ubuntu:apt-get install ipmitool
- 加载驱动:
modprobe ipmi_si
modprobe ipmi_devintf
modprobe ipmi_msghandler
命令功能
npu-smi set -t reset -i id -c chip_id [-m 1]用于复位指定芯片。
命令格式
npu-smi set -t reset -i id -c chip_id [-m 1]
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
- 虚拟机和docker容器中不支持该命令。
- 业务运行过程中,请不要执行此命令。
- 以上命令中[-m 1]表示可选参数,如果使用该参数表示通过带内复位指定芯片,否则表示通过带外复位指定芯片。该参数仅NPU 20.1.X系列版本使用。
- 带外复位芯片需要依赖iBMC,为保障复位功能,请升级服务器iBMC到最新的版本。
- 芯片复位成功后,请至少等待20s,再执行当前或其他芯片信息查询操作,请耐心等待。
使用实例
#通过带外复位设备1编号为0的芯片。
npu-smi set -t reset -i 1 -c 0
Status : OK Message : Reset chip successfully
#通过带内复位设备77编号为0的芯片。
npu-smi set -t reset -i 77 -c 0 -m 1
Message : resetting ... Status : OK Message : Reset chip successfully
配置用户证书
命令功能
npu-smi set -t license -i id -f "license"用于配置用户的证书。证书只能配置一次,否则会配置失败。
命令格式
npu-smi set -t license -i id -f "license"
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
license |
证书内容。 格式为字符串,大小为1-255个字节。 说明:
由于Linux命令行的Shell对部分特殊字符具有保留含义,如$$表示Shell进程ID,$?表示上个命令的退出状态,故如需要设置特殊字符,用户需要对特殊字符进行转义操作。 |
使用指南
- 对于NPU 1.X.X系列版本:该命令仅支持npu-smi及MCU版本为1.4.0及以上版本。
- 对于NPU 20.X.X系列版本:所有版本均支持此命令。
- 虚拟机和docker容器中不支持该命令。
使用实例
#配置设备1的证书为abcde。
npu-smi set -t license -i 1 -f "abcde"
设置AI芯片的IP信息
命令功能
npu-smi set -t ip -i id -c chip_id -s ipstring 用于设置AI芯片的IP信息。
命令格式
npu-smi set -t ip -i id -c chip_id -s ipstring
参数说明
类型 |
描述 |
---|---|
id |
设备id。 通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。 如果有4个芯片,则编号为0、1、2、3。 |
ipstring |
IP地址及子网掩码。 格式如下:“XX.XX.XX.XX/XX.XX.XX.XX” 其中,“/”前半部分为IP地址,后半部分为子网掩码。 |
使用指南
- 对于NPU 1.X.X系列版本:仅NPU 1.4.1及以上版本支持此命令。
- 对于NPU 20.X.X系列版本,所有版本均支持此命令。
- 虚拟机和docker容器中不支持该命令。
- 重启系统和复位芯片后配置的IP信息都会丢失,恢复为默认IP地址。需要重新设置AI芯片的IP信息。
- 配置IP地址必须在物理机的root用户下运行,若在物理机的非root用户,或在容器、虚拟机下运行,则会返回错误。
- 对于NPU 1.X.X系列版本,配置IP地址必须先使能芯片的ssh功能,否则只会修改芯片的IP信息,ssh服务重启失败,从而导致返回错误。
使用实例
#设置设备0,编号为0的AI芯片的IP信息为192.168.5.199,子网掩码为255.255.255.0。
npu-smi set -t ip -i 0 -c 0 -s 192.168.5.199/255.255.255.0
Status : OK Message : Set chip ip successfully
清除所有芯片的PCIE误码计数
命令功能
npu-smi set -t errcount-clear -i id 用于清除所有芯片PCIE误码计数。
命令格式
npu-smi set -t errcount-clear -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。 通过npu-smi info -l命令查出的NPU ID即为设备id。 |
使用指南
- 该命令仅支持NPU 20.1.X系列版本。
- 虚拟机和docker容器中不支持该命令。
使用实例
#清除设备1所有芯片的PCIE误码计数。
npu-smi set -t errcount-clear -i 1
Status : OK Message : Set errcount-clear successfully
清除指定芯片的PCIE误码计数
命令功能
npu-smi set -t errcount-clear -i id -c chip_id 用于清除指定芯片PCIE误码计数。
命令格式
npu-smi set -t errcount-clear -i id -c chip_id
参数说明
类型 |
描述 |
---|---|
id |
设备id。 通过npu-smi info -l命令查出的NPU ID即为设备id。 |
chip_id |
芯片id。如果有4个芯片,则编号为0、1、2、3。 |
使用指南
- 该命令仅支持NPU 20.1.X系列版本。
- 虚拟机和docker容器中不支持该命令。
使用实例
#清除设备1中编号为1的芯片的PCIE误码计数。。
npu-smi set -t errcount-clear -i 1 -c 1
Status : OK Message : Set chip errcount-clear successfully
升级功能(upgrade)
查询固件升级状态
命令功能
npu-smi upgrade -q item -i id 用于查询固件的升级状态。
命令格式
npu-smi upgrade -q item -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
item |
升级类型:MCU。 |
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#查询设备1中MCU的固件升级状态。
npu-smi upgrade -q mcu -i 1
Conclusion : PASS Message : Device upgrade successfully.
查询固件版本信息
命令功能
npu-smi upgrade -b item -i id 用于查询固件的版本信息。
命令格式
npu-smi upgrade -b item -i id
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
item |
升级类型:MCU。 |
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#查询设备1中MCU的固件版本信息。
npu-smi upgrade -b mcu -i 1
Version : 1.1.8
升级固件
命令功能
npu-smi upgrade -t item -i id -f file_path用于启动固件升级。
命令格式
npu-smi upgrade -t item -i id -f file_path
参数说明
类型 |
描述 |
---|---|
id |
设备id。通过npu-smi info -l命令查出的NPU ID即为设备id。 |
item |
升级类型:MCU。 |
file_path |
升级文件路径。 文件路径仅支持英文字母、数字、下划线("_")、点(".")、斜线("/")、连字符("-")。 |
使用指南
虚拟机和docker容器中不支持该命令。
使用实例
#升级设备1中的MCU固件。
npu-smi upgrade -t mcu -i 1 -f ./IT91VPUA_MCU_V103.bin
validate : successfully file_len(160847)--offset(160847) [100]. transfile : successfully Status : start to upgrade Start upgrade [100]. Status : OK Message : Start device upgrade successfully Message : need active mcu
查询npu-smi工具版本
命令功能
npu-smi -v用于查询npu-smi工具的版本信息。
命令格式
npu-smi -v
使用实例
#查询npu-smi的版本信息。
npu-smi -v
npu-smi Version : 1.0.2
查询帮助
命令功能
npu-smi -h | --help 用于显示工具的帮助信息。
命令格式
npu-smi -h
使用实例
#显示npu-smi工具的帮助信息。
npu-smi -h
Usage: npu-smi <Command|-h|-v> [Options...] npu-smi Command: -h This help or command's help --help This help or command's help -v Show npu-smi version information info Show hardware details set Modify device configuration properties upgrade Upgrade card or MCU firmware
- 信息查询(info)
- 查询基本信息
- 查询芯片监控数据
- 查询所有NPU设备
- 查询所有芯片映射关系信息
- 查询具体卡信息
- 查询所有芯片常用信息
- 查询所有芯片闪存信息
- 查询所有芯片内存信息
- 查询所有芯片统计信息
- 查询所有芯片温度
- 查询所有芯片功率
- 查询所有芯片电压
- 查询所有芯片健康状态
- 查询所有芯片的ssh使能状态
- 查询所有芯片ECC错误计数
- 查询ECC使能状态
- 查询p2p使能状态
- 查询指定芯片信息
- 查询指定芯片温度
- 查询指定芯片功率
- 查询指定芯片电压
- 查询指定芯片统计信息
- 查询指定芯片闪存信息
- 查询指定芯片内存信息
- 查询指定芯片健康状态
- 查询指定芯片的ssh使能状态
- 查询指定芯片ECC错误计数
- 查询NPU与MCU之间的IIC通道是否正常
- 查询指定芯片的产品类型
- 查询指定芯片的Matrix进程监控数据
- 查询用户证书
- 查询AI芯片的IP信息
- 查询所有芯片的PCIE误码计数
- 查询指定芯片的PCIE误码计数
- 配置功能(set)
- 升级功能(upgrade)
- 查询npu-smi工具版本
- 查询帮助