Dsware服务器SSD卡温度异常&PCI-E通道异常告警处理方法

发布时间:  2015-10-16 浏览次数:  106 下载次数:  0
问题描述

1.       FM告警:SSD卡温度异常紧急告警;

2.       OSD退出服务;

3.       PCI-E通道告警。

处理过程

1.       由于只有这几个告警,初步分析为SSD散热故障;

2.       下电服务器,更换SSD卡插槽,仍然有告警。进入服务器cna系统,通过命令hio_temperatuer –d /dev/hioa查询SSD卡温度,为80多度,不正常;

3.       再次下电服务器,拆开SSD卡散热片,发现散热片与芯片之间没有散热硅脂。涂抹散热硅脂,并手动清除告警后,告警不再出现。再次查询温度,恢复为50多度,正常。

4.       之前更换SSD卡槽位后,出现PCI-E通道异常告警。PCI-E设备只有这个SSD卡,排除设备松动原因后,通过命令 “lspci –s 插槽号 –vvv”查询SSD支持速率(说明:插槽号可通过命令”lspci |grep Mass”查询)和与服务器协商速率:


可以看到LnkCapSSD支持Width x8,而LnkStat中协商为Width x4。再次更换SSD卡到支持Width x8的插槽后,告警消失。

根因

1.       SSD卡上没有涂抹散热硅脂,导致温度过高;

2.       PCI-E槽位支持速率与SSD卡支持速率不匹配,导致出现PCI-E通道告警。

解决方案

1.       SSD卡涂抹散热硅脂;

2.       更换SSD卡到与其速率匹配的PCI-E插槽上。

END