RH5885V3经常异常重启

发布时间:  2016-07-31 浏览次数:  176 下载次数:  2
问题描述

1、客户反馈周一服务器(装的是Redhet6.5有桌面)无故SSH连接不上,昨天指导客户登录Ibmc,发现无告警,远程控制显示无信号;重启后业务正常。

2、今天到现场登录ibmc发现远程控制里面桌面运行比较卡,卡顿大约3秒才能移动鼠标。

告警信息
设备无告警信息,导出的日志信息有告警信息,如下:

然后6-3 出现FAN告警

455        | 2016-06-03 10:31:36            | FAN3 F Status        | Asserted     | Major        | Fault status

454        | 2016-06-03 10:28:44            | FAN2 F Status        | Asserted     | Major        | Fault status

453        | 2016-06-03 10:27:32            | FAN1 R Status        | Asserted     | Major        | Fault status

然后6-10 又出现FAN告警

567        | 2016-06-10 19:13:23            | FAN2 F Status        | Deasserted   | Major        | Fault status

566        | 2016-06-10 19:11:19            | FAN2 F Status        | Asserted     | Major        | Fault status

然后6-24 出现告警

735        | 2016-06-24 04:57:04            | Riser Card           | Asserted     | Normal       | Device Inserted/Device Present

734        | 2016-06-24 04:47:49            | FAN1 F Status        | Deasserted   | Major        | Fault status


OS日志里面反复刷硬件告警:


BMC一键收集日志里面

Fdmlog

 



处理过程

Slot4配置Emulex 8G FC HBA卡时,Redhat 6.5系统会自动开启Slot4槽位ASPM特性(BIOS默认是关闭的),导致OS不断检测链路状态上报PCI-E可恢复事件。

 

建议在OS侧关闭ASPM观察。

方法如下:

 

1、  修改内核参数pcie_aspm的值

执行步骤:

1vim  /etc/grub.conf


 2)在kernel一行的后面添加pcie_aspm=off 

 


    3)保存后退出

2、重启生效

 

根因

Slot4配置Emulex 8G FC HBA卡时,Redhat 6.5系统会自动开启Slot4槽位ASPM特性(BIOS默认是关闭的),导致OS不断检测链路状态上报PCI-E可恢复事件。

解决方案

修改内核参数pcie_aspm的值

END