服务器上电后自动掉电

发布时间:  2015-10-22 浏览次数:  183 下载次数:  0
问题描述

某互联网客户反馈,有同一机柜8rh2288h v2服务器上电后自动关机。

1、  8台服务器上电,批量安装操作系统,结果发现8台服务器陆续自动下电;

2、  下电后,Ping服务器的bmc ip地址,不通,所以无法远程给服务器加电,只能麻烦机房托管人员去机房手动加电;

3、加电后不久又出现自动下电,导致操作系统无法安装,软件无法部署,严重影响现网扩容业务。
告警信息

服务器自动下电
处理过程

1、将所有服务器电源拔掉,只保留一台测试;

2、将测试服务器最小化测试,将服务器只保留一个cpu和对应的一条内存,开机,发现还是自动下电;

3、将测试服务器部件还原,将其他服务器电源也都插好;

4、一台一台上电,发现不掉电,再上其他服务器,看看是不是pdu供电不足,结果发现故障依旧;

5、按照研发的脚本进行bmc日志收集,发送给研发分析;

6、现场测试服务器下电后,用网线将bmc直连笔记本,ipping通;

7、找到数通工程师分析服务器对端交换机,发现交换机的端口都是万兆,而服务器是百兆,端口速率还不是自适应模式,需要改成端口自适应;开机时能ping通,是因为现场的服务器bmc口和管理口做成了一个口,开机后,网口就变成了万兆,关机后,网口又回到了百兆bmc,所以开机能ping通,关机不能ping通;将交换机对服务器端口开启速率自协商功能;

8、在测试直连bmc网口时意外发现,只要将连交换机的网线拔了,服务器就不会掉电了;发现这个情况后,立马将所有服务器网线拔掉,全部开机,测试还会不会掉电;一小时后,回到机房发现服务器依旧在运行中,没有一台掉电;

9、给研发打电话咨询,这时研发分析日志也看出来了,有一个ip一直通过交换机连到bmc上控制着服务器;服务器下电都是这个ip捣的鬼;

日志分析截图:

10、     给客户打电话咨询,客户表示这个ip是他们管理服务器的,专门用于管理机房所有的服务器设备,可能是管理软件出现了问题;经协商,客户关掉软件,现场重新插好网线,测试一小时后,没有再出现掉电现象,但是测试远程关机后,还是ping不通bmc,还是无法远程上电,将服务器电源拔掉重插,相当于重置bmc,故障消失。

根因
客户管理软件通过bmc对华为服务器进行了下电指令
建议与总结
再遇到类似问题,在客户同意情况下,上来先把网线都拔了,再测试分析。

END