M2000 SUN小型机硬件故障导致的宕机处理

发布时间:  2014-06-10 浏览次数:  842 下载次数:  0
问题描述
某GSM-R局点M2000网管突发故障,网管客户端无法登陆,网管服务器IP地址也无法ping通,据此现场判断服务器已宕机。该局点使用的服务器为SUN小型机M4000.
告警信息
无。
处理过程
1、 由于网管故障,BSC网元无法使用域帐号登录,因此建议客户使用本地用户登录BSC网元,确保网元的基本监控业务正常;
2、 查询机器序列号,致电Oracle公司客服热线,报障并启动备件更换;

3、 经验判断,由于IOU模块的故障通常也引起内存管理模块上有故障提示,因此优先更换IOU模块。实际处理过程中,Oracle工程师对IOU模块中的DDC模块进行了更换,故障消除。
根因
1、该服务器XSCF远程串口IP地址(如下图网口4)已经配置,通过该IP地址使用SSH登陆XSCF;(如果远程串口IP地址未配置,则需要通过下图串口2登陆XSCF)

2、执行XSCF> poweron -d 0 给服务器域0上电,服务器提示无法上电;
3、执行如下命令,进行故障信息收集;
XSCF> showstatus
XSCF> showhardconf
XSCF> showlogs error
XSCF> showboards -av
XSCF> version -c xscf
XSCF> showlogs monitor
XSCF> fmdump
XSCF> fmdump -m
4、根据信息收集结果,提示内存管理模块和IOU模块存在故障,其中IOU模块中报DDC_B模块故障,判断是硬件故障,需要对故障部件进行更换。
建议与总结
在此次故障处理过程中,还发现另外一个问题,该服务器的硬件维保只有一年,而华为和客户的维保界面是两年,原因是外购件的维保是在产品报价中包含的,而不是像华为设备的维保是由服务单独报价的,这也是前期产品配置中被忽略的问题。建议各局点维护工程师要及时审视外购件的维保,如果存在外购件维保时间短于华为和客户的维保,需要及时推动市场、产品经理补齐外购件的维保时长。

END