FusionInsight HD /srv/BigData目录空间占用过高

发布时间:  2016-09-10 浏览次数:  99 下载次数:  0
问题描述

集群版本:FusionInsight  HD V100R002C30SPC602

集群规模:13节点  单平面组网

有一个数据节点的

/srv/BigData分区上报磁盘空间不足告警,使用df查询发现该目录已经使用91%,但是在该分区目录下面没有发现任何数据文件,造成该分区空间不知道什么原因被占满


处理过程

1、  收集df信息发现该分区确认是被占用很大空间

Filesystem                  Size  Used Avail Use% Mounted on
/dev/mapper/system-root      20G  5.4G   14G  29% /
devtmpfs                    127G  356K  127G   1% /dev
tmpfs                       127G   88K  127G   1% /dev/shm
/dev/sda1                   493M   51M  417M  11% /boot
/dev/mapper/system-opt      989G  3.6G  935G   1% /opt
/dev/mapper/system-tmp       20G  1.6G   18G   9% /tmp
/dev/mapper/system-var       20G  739M   18G   4% /var
/dev/mapper/system-log       50G  1.9G   45G   4% /var/log
/dev/mapper/system-BigData  2.0G  1.7G  190M  91% /srv/BigData
/dev/sdb1                   1.1T  624G  420G  60% /srv/BigData/hadoop/data1
/dev/sdc1                   1.1T  629G  415G  61% /srv/BigData/hadoop/data2
/dev/sdd1                   1.1T  626G  418G  60% /srv/BigData/hadoop/data3
/dev/sdf1                   1.1T  627G  416G  61% /srv/BigData/hadoop/data5
/dev/sdg1                   1.1T  617G  427G  60% /srv/BigData/hadoop/data6
/dev/sdh1                   917G  632G  239G  73% /srv/BigData/hadoop/data7
/dev/sdi1                   917G  643G  229G  74% /srv/BigData/hadoop/data8
/dev/sde1                   1.1T  211G  832G  21% /srv/BigData/hadoop/data4

2、  首先我们怀疑该分区有大量的文件处于被正在删除的状态,但是根据收集的信息发现没有这样的文件

pdccsfbdp0svr17:~ # lsof |grep delete

java       4176       root   90w      REG              253,2  10485804     32367                                                                             6 /TIVOLI/orae/log/daemon.log.1 (deleted)

nscd      10411       root    8u      REG              253,4    217016     13933                                                                             0 /var/run/nscd/dbOydzF6 (deleted)

nscd      10411       root    9r      REG              253,4    217016     13933                                                                             0 /var/run/nscd/dbOydzF6 (deleted)

sh        72621        omm    0r      REG              253,3        66         4                                                                             1 /tmp/sh-thd-1468985089 (deleted)

ldapclien 72622        omm    0r      REG              253,3        66         4                                                                             1 /tmp/sh-thd-1468985089 (deleted)

ldapclien 72634        omm    0r      REG              253,3        66         4                                                                             1 /tmp/sh-thd-1468985089 (deleted)

sudo      72656       root    0r      REG              253,3        66         4                                                                             1 /tmp/sh-thd-1468985089 (deleted)

sudoExecu 72657       root    0r      REG              253,3        66         4

3、  紧接着我们发现/srv/BigData/hadoop/data4分区的使用率明显低于其他数据盘,我们怀疑该磁盘出现过故障跟执行过更换操作。

根因

在更换故障磁盘的过程中,可能由于是操作方式问题,导致应该写在独立挂载磁盘中的数据被写入到了/srv/BigData分区中,然后又因为在该目录重新挂载了磁盘,导致/srv/BigData分区中的数据被隐藏起来看不到,最终造成了通过df能显示磁盘被使用了很多,但是找不到具体的数据文件。


解决方案

操作步骤:

a)       umount /srv/BigData/hadoop/data4

b)       清理/srv/BigData/hadoop/data4目录中的数据

c)       /srv/BigData/hadoop/data4重新mount挂载回来

按照上述操作后,磁盘空间恢复正常

(更换数据磁盘引起的原本要写入/srv/BigData/hadoop/data4目录的数据写入了/srv/BigData。由于集群数据数据为三份冗余,故清除部分少量数据不会对集群整体数据造成影响,集群会定期检测数据的冗余性,对于不满足冗余度的数据会进行重新复制增加冗余度。)

END