RH2288H V3服务器RAID卡固定螺丝脱落导致主板接触不良造成服务器死机

发布时间:  2016-03-03 浏览次数:  210 下载次数:  0
问题描述
客户自行将一台RH2288H V3服务器委托第三方进行了二次运输,到达最终使用地点后上架并安装操作系统和应用软件,在安装软件重启服务器的过程中发现系统无法启动,在RAID卡自检界面死机,RAID卡无法通过自检。如果将RAID卡拔掉再启动,则可以进行至寻找启动设备的步骤,由此判断RAID卡故障并报修。
处理过程
  1. 带新的RAID卡到现场后进行更换,确认故障现象并将故障RAID卡更换后,故障依旧,仍然是在RAID卡自检界面死机,拔掉RAID卡则可以进行至寻找启动设备的界面,由此判断新RAID卡安装后仍然失效。
  2. 分析故障现象,并搜集BMC管理口日志分析后,除可确定RAID卡故障外无法找出其他故障点。
  3. 将所有硬盘拔出,只插上RAID卡进行启动,仍然无法启动,由此排除硬盘故障导致RAID卡失效,判断问题应该在RAID卡上。
  4. 根据现象反复分析,判断可能为新RAID卡仍然失效或有其他原因,根据客户描述分析了由客户自行调整过的部件,并将涉及到的PCIE扩展卡等部件检查后重新插拔,排除相关部件故障,并将多余的部件拔掉,故障依旧,问题仍然聚焦在RAID卡上。
  5. 将新旧RAID卡互换数次,故障依旧。插拔过程中发现RAID卡缺少一颗固定螺丝,见下图红色方框部分:
  6. 根据现场RAID卡安装情况分析,如果此固定螺丝缺失,会导致只有一个螺丝固定,此时一旦发生震动,则受力点会聚集在RAID卡与主板连接的插槽上,此插槽位于RAID卡上,主板对应位置是插针,有很大可能会导致接触不良。
  7. 与客户一起在现场的服务器内部和附近寻找丢失的固定螺丝,未找到,排除螺丝掉落在服务器内的可能后,与客户分析了运输过程,判断第三方运输时可能震动较大导致螺丝松脱,且极有可能导致RAID卡的插槽接触不良。
  8. 根据现场分析可能的问题后,针对可能造成接触不良的情况进行了检查,未发现插针明显弯曲或折断,此接触不良可能无法肉眼确认。后将原RAID卡重新插入主板试图分析问题,此时发现服务器可以正常启动且进入了操作系统,故障现象消失。
  9. 与客户共同分析现象后,尝试将新RAID卡重新更换至主板上,且在插拔时根据之前的经验小心插入,避免引发接触不良,服务器也成功启动,故障消失,由此判断2块RAID卡的功能均正常,故障定位在主板的RAID卡插针接触不良。
  10. 重新申请一块主板到现场进行了更换,并补上了RAID卡固定螺丝,更换后故障消失,数次测试后均正常进入系统,问题解决。




根因

根本原因为RAID卡螺丝在运输过程中脱落导致的震动造成了主板上RAID卡插针接触不良,导致RAID卡失效。

解决方案
  1. 确认问题后更换故障主板
  2. 告知客户此故障的根本原因,并提醒客户注意第三方运输时的防震措施,并做好相关固定措施,避免部件松动脱落造成硬件故障。
建议与总结

分析问题时,可能会遇到多种故障原因,避免仅从部件本身的故障思考问题,排除故障过程中要细心观察,从全局角度考虑问题,这样才能从不同的角度思考故障原因,进而找到真正的根本原因并将其排除。如果仅从表面现象入手更换所有可能故障的硬件,此问题也可以解决,但是仍然无法避免下次出现类似的故障,因此需要多看多思考。

END