CNA节点异常无法

发布时间:  2013-09-30 浏览次数:  142 下载次数:  0
问题描述
1、 ssh不能到达问题节点。
2、 bsb进程异常,查看进程状态时报“No space left on device”

/bin/echo: write error: No space left on device
/bin/echo: write error: No space left on device
/bin/echo: write error: No space left on device
Result:abnormal
/bin/echo: write error: No space left on device
/usr/bin/printf: write error: No space left on device


3、 查看系统磁盘占用率,/dev目录下占用100% 或超过50%以上

devtmpfs              2.1G  2.1G     0 100% /dev

4、 通过查询问题节点属性,与如下截图中的文件权限不同;
实际环境中null为一个文件。


告警信息
节点出现人为重启ssh服务等情况时,可能触发该问题。
对于多数局点,一线环境不会触发ssh重启,并且节点重启后,/dev/null设备可恢复。
对于长期(200天以上)未重启的节点,建议排查该现象3-4,进行/dev/null设备的恢复。
处理过程
步骤1:
如无法putty登陆到该节点,可使用BMC或vnc登陆该节点,在问题节点执行如下命令恢复/dev/null;
rm /dev/null;mknod /dev/null c 1 3;chmod 666 /dev/null;ll /dev/null

如果存在SSH无法登陆的问题,在上述恢复完成后,重启ssh服务。
service sshd restart;service sshd status
步骤2:
如果当前问题节点/dev目录已经占满,需要将问题节点虚拟机迁空,重启该节点
(需要确认该节点可以重启)

参考信息
/dev/null设备简介
在类Unix系统中,/dev/null,或称空设备,通常被用于丢弃不需要的输出流,或作为用于输入流的空文件。这些操作通常由重定向完成。。
在linux行话中,/dev/null被称为bit bucket或者黑洞.

查询/dev/null 文件被删除后未释放的方法,如有类似下图红色字段,说明是该原因导致。

根因
SingleCLOUD Solution V100R002C01SPC200,V100R002C01SPC100版本在扩容IPSAN或者LUN时,存在删除/dev/null设备的情况,导致SSH进程重启失败,无法SSH登陆该类节点。如果该节点上没有/dev/null设备,可以用本案例来解决此问题。
在SingleCLOUD Solution V100R002C01SPC300中已解决该问题。
如果/dev/null文件被删除,将会导致一些脚本的结果重定向到/dev/null失败,此时会生成/dev/null文件,同时该文件会被进程使用。可能导致被删除的/dev/null文件不能释放,最终导致/dev目录所在磁盘分区空间不足。
建议与总结

END