故障诊断
测试项功能
故障诊断会获取芯片健康信息,同时对芯片进行算力、功耗、带宽测试并输出测试结果,用以判断当前产品的健康状态。
测试项参数查询
用户可任选以下指令之一查看故障诊断命令的可用参数。
ascend-dmi -dg -h
ascend-dmi -dg --help
各参数解释如表5-2所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-c, --card] |
指定Card进行诊断,不指定则默认诊断所有Card的信息。 用户可以执行ascend-dmi info命令,在显示界面表格中的Card参数处获得已安装的卡的号码。 |
否 |
[-l, --level] |
指定诊断等级,不指定则默认诊断Level 0等级信息。 目前支持以下两种等级:
|
否 |
不填写-c与-l参数 |
诊断所有card的Level 0等级信息。 |
否 |
为保证返回检测结果的正确性和准确性,故障诊断需要单独执行。
使用实例
使用实例中命令的回显在推理服务器与训练服务器类似,截图取自推理服务器。
- 以指定卡号和诊断等级Level 0为例。
ascend-dmi -dg -c 65 -l 0
65为环境中已安装的卡号码的示例,用户可以执行ascend-dmi info命令,在显示界面表格中的Card参数处获得已安装的卡的号码,请用户自行替换。
- 以指定卡号和诊断等级Level 1为例。
ascend-dmi -dg -c 65 -l 1
65为环境中已安装的卡号码的示例,用户可以执行ascend-dmi info命令,在显示界面表格中的Card参数处获得已安装的卡的号码,请用户自行替换。
参数名称 |
参数意义 |
---|---|
Card |
卡号 |
Device |
芯片编号 |
Health |
芯片的健康程度 |
Flops Test |
算力工具测试 |
Duration(ms) |
测试时间 |
Computing Power(TFLOPS) |
算力 |
Bandwidth Test |
带宽测试类型 |
Bandwidth(MB/s) |
带宽值 |
Power Test |
功耗测试 |
Max Power(W) |
最大功耗 |
Average Power(W) |
平均功耗 |
Max AI Core(%) |
AI Core最大利用率 |
Average AI Core(%) |
AI Core平均利用率 |
Max Temp(C) |
最大温度 |
Average Temp(C) |
平均温度 |
Max Voltage(V) |
最大电压 |
Average Voltage(V) |
平均电压 |