CNA节点根分区满导致网络不通

发布时间:  2015-07-31 浏览次数:  155 下载次数:  2
问题描述
管理集群下CNA04与CNA02出相同的故障现象,即根分区满导致网络不通。
告警信息
处理过程

根据分区已达100%,进入到/var/crash/目录 下,产生一个crash文件500多MB,手动删除该文件,并重启CNA节点系统,网络正常,根据研发提供方法(所有CNA节点执行),所有节点硬盘状态 正常(/opt/huawei/bma/bin/hwdiag -t disk –d),后续将crash产生的文件放到/tmp/disk/tmp目录下,方法如下:

rm -rf /boot/initrd-*-kdump

rckdump restart (重启不影响当前虚拟机业务)

根因

FC每一分钟调用一次hwdiag命令查询RAID卡硬件信息,hwdiag会调用mpt2sas驱动,如果查询时硬件无返回会触发时钟停止,触发kbox的软件狗超时,进而引起主机重启。

mpt2sas驱动属于SUSE自带程序,该驱动的新版本解决了此问题。

解决方案

1. 登陆CNA节点,vi编辑/opt/galax/vrm/om/pma/gatherplugins.ini,删除GatherHostRaidInfo
监控项。以停止每隔1分钟的hwdiag查询RAID信息动作,从源头解决问题。

2. 修改后执行service pmad restart重启监控进程生效。

建议与总结

END