检查服务器
请按照如图5-37所示顺序检查服务器,采用的方式请根据实际情况确定。
操作过程中涉及的命令行的详细信息可参考《Atlas 800 训练服务器 iBMC (V3.01.00.00及以上) 用户指南 (型号 9010)》。
操作步骤
- 查看指示灯状态。
观察服务器的指示灯状态,确定设备硬件状态正常。
详细信息请参见前面板指示灯和按钮和后面板指示灯(NPU满配)。
- 检查服务器。
- 通过iBMC WebUI检查服务器。
- 通过WebUI登录iBMC,详细信息请参见登录iBMC Web界面。
- 在上方标题栏中选择“iBMC管理”,在左侧导航树中选择“固件升级”查询服务器版本信息,如图5-38所示。
确认服务器的版本满足局点要求。
- 在上方标题栏中展示服务器的健康状态,如图5-39所示。
序号
健康状况
情况说明
1
告警统计
分别展示紧急、严重和轻微告警的个数。
2
上下电状态
展示服务器的上下电情况,可以通过指示灯右侧的
进行服务器上下电状态切换。
3
UID灯状态
展示服务器的设备在位状态,可以通过指示灯右侧的
进行服务器UID状态切换。
- 若查询结果显示有告警,请参见《Atlas 800 训练服务器 iBMC 告警处理 (型号9010)》清除产生的告警。
- 通过iBMC命令行检查服务器。
- 在PC上配置与iBMC管理网口同一网段的IP地址。
- 使用网线将PC与服务器的iBMC管理网口相连。
- 在PC端打开命令行管理工具(如SSH、PuTTY),输入iBMC管理网口IP地址、用户名、密码,进入命令行。
iBMC默认支持SSH登录,如果已经设置为关闭,需要在Web界面的“服务管理 > 端口服务”页面中打开SSH服务并保存后才能通过SSH工具登录。
- 执行ipmcget -d version命令,查询服务器的版本信息。
确认服务器的版本满足局点要求。
------------------- iBMC INFO ------------------- IPMC CPU: Hi1711 IPMI Version: 2.0 CPLD Version: (U4451)1.03 Active iBMC Version: (U4433)3.01.05.01 Active iBMC Build: 001 Active iBMC Built: 12:18:11 Jun 1 2020 Backup iBMC Version: 3.01.05.01 Available iBMC Version: 3.01.05.01 Available iBMC Build: 001 SDK Version: 8.0.30.3 SDK Built: 17:14:59 May 26 2020 Active Uboot Version: 8.0.30.3 (17:35:42 May 26 2020) Backup Uboot Version: 8.0.30.3 (17:35:42 May 26 2020) Active Secure Bootloader Version: 8.0.30.3 (17:35:41 May 26 2020) Backup Secure Bootloader Version: 8.0.30.3 (17:35:41 May 26 2020) Active Secure Firmware Version: 8.0.30.3 (17:35:41 May 26 2020) Backup Secure Firmware Version: 8.0.30.3 (17:35:41 May 26 2020) ----------------- Product INFO ----------------- Product ID: 0x0002 Product Name: Atlas 800 (Model 9010) Active BIOS Version: (U47)5.38 Backup BIOS Version: 5.38 -------------- Mother Board INFO --------------- Mainboard BoardID: 0x0052 Mainboard PCB: .A --------------- Riser Card INFO ---------------- Riser1 BoardName: IT21R11A Riser1 BoardID: 0x003e Riser1 PCB: .A Riser2 BoardName: IT21R11A Riser2 BoardID: 0x003e Riser2 PCB: .A -------------------- PSU INFO ------------------- PSU1 Version: DC:115 PFC:115 PSU2 Version: DC:115 PFC:115 PSU3 Version: DC:115 PFC:115 PSU4 Version: DC:113 PFC:113 -------------- NPU/GPU Board INFO -------------- NPUBoard1 BoardName: IT21SD4A NPUBoard1 BoardID: 0x0093 NPUBoard1 PCB: .C NPUBoard1 CPLD Version: (U1152)1.02 NPUBoard2 BoardName: IT21SD4A NPUBoard2 BoardID: 0x0093 NPUBoard2 PCB: .C NPUBoard2 CPLD Version: (U1152)1.02
- “CPLD Version”:服务器CPLD的版本号。
- “BIOS Version”:服务器BIOS的版本号。
- “Active iBMC Version”:服务器主工作区iBMC的版本号。
- “Backup iBMC Version”:服务器备工作区iBMC的版本号。
- 查询服务器的健康状态。
iBMC:/->ipmcget -d health System in health state
- 如果查询结果为“System in health state”,则结束。
- 如果查询结果有告警信息,请执行后续步骤清除告警信息。
- 查询服务器的告警信息。
iBMC / # ipmcget -d healthevents Event Num | Event Time | Alarm Level | Event Code | Event Description 1 | 2019-02-10 00:52:23 | Minor | 0x12000021 | get description failed. 2 | 2019-02-10 01:37:42 | Minor | 0x12000013 | Failed to obtain data of the air inlet temperature. 3 | 2019-02-10 00:52:23 | Minor | 0x12000019 | Right mounting ear is not present. 4 | 2019-02-10 00:52:19 | Major | 0x28000001 | The SAS or PCIe cable to front disk backplane is incorrectly connected.
- 参考《Atlas 800 训练服务器 iBMC 告警处理 (型号9010)》清除产生的告警。
- 通过iBMC WebUI检查服务器。