大数据FusionInsight补丁包上传失败

发布时间:  2017-01-06 浏览次数:  120 下载次数:  4
问题描述

FusionInsightV100R002C60U10版本打SPC002补丁时,补丁上传进度卡在94%,最终超时失败。主节点上补丁文件已上传成功,但是备节点一直没有同步成功。

告警信息


 

处理过程

1、问题前提分析

    20161119日上午06:00:00左右,当时11是主节点,12是备节点

    这时在主节点(11),删除了备份目录下的/srv/BigData/LocalBackup的文件,由于该同步目录的配置如下:

<file name="/srv/BigData/LocalBackup" auto="no" delete="no"/>-------这表示删除主节点,备节点不会同步删除,需要手动删除。

    12节点(备节点)的日志如下:


2、升级过程分析

    由于老版本修改IP没有修改对应的HA的配置文件,导致升级后12节点的HA启动失败。

    在此期间,12节点一直没有启动成功,使得主备的备份目录/srv/BigData/LocalBackup内容不一致。

3、补丁过程分析

    升级完成后,主节点切换成了12节点。12节点重启成功之后,立刻触发了一次文件全同步,这一次文件全同步。HA备节点(11)日志中全是文件同步日志打印。(从13:45:5515:18:58秒)

    日志中一直在打印同步主节点(12)的备份目录,如下所示:

    上面的文件全同步,到15:18:58秒就中断了,因为11节点(备节点)被重启了,从操作日志来看应该是手动重启的。日志如下:

4 11节点启动后,主备恢复正常后

    又一次自动触发了文件全同步,接力上次文件全同步,,同步时间段(15:22:1116:48:23)

    11节点16:48:23还在文件全同步过程中,还在下载备份目录的文件。如下:



 

根因

补丁是在15:27:30上传的,这个时间点,主备之间在执行文件全同步,补丁文件同步未开始执行。从而导致补丁上传超时失败。


解决方案

【规避措施】

一、主/OMS备份目录满的规避措施

1.   登陆主OMS节点;

2.   打开文件"/opt/huawei/Bigdata/OMSV100R001C00x8664/workspace/ha/module/hasync/plugin/conf/filesync.xml"

3.   /srv/BigData/LocalBackup/opt/huawei/Bigdata/LocalBackup/srv/BigData/Manager/bak目录配置项后面的delete="no"删除,删除后内容见“图表-1;



图表 1 OMS同步配置文件修改后的内容

4.   执行命令"ps -ef | grep ha.bin | grep OMS",查询出HA进程的pid,执行kill -9 <hapid>,停止掉ha进程,其中<hapid>ps命令查询出的第二列值;

5.   等待2分钟左右,再次执行"ps -ef | grep ha.bin | grep OMS",确认HA进程是否已经正常启动;

6.   登陆备OMS节点,确认文件"/opt/huawei/Bigdata/OMSV100R001C00x8664/workspace/ha/module/hasync/plugin/conf/filesync.xml"是否已同步修改"步骤3"的内容,如果未同步则手动删除;

7.   在备OMS节点重复执行步骤4、步骤5;重启HA进程;

8.   登陆主OMS节点,切换到omm用户,执行文件全同步命令/opt/huawei/Bigdata/OMSV100R001C00x8664/workspace/ha/module/hacom/tools/ha_client_tool --syncallfile;

9.   全同步执行成功后,等待2分钟左右,在备OMS节点检查上述目录下的多余文件是否已经成功删除;

 

二、主/DBServer节点备份目录满的规避措施

1.   登陆主DBServer节点;

2.   打开文件/opt/huawei/Bigdata/FusionInsight/dbservice/setup/conf/ha_plugin/ha_sync_conf/dbservice_sync.xml; #DBSERVICE_INSTALL_HOME#/bak"配置项后面的delete="no"删除,修改后的内容见“图表-2”;


图表 2  DBService初始配置文件修改后的结果

3.   打开文件"/opt/huawei/Bigdata/FusionInsight/dbservice/ha/module/hasync/plugin/conf/dbservice_sync.xml";

4.   /opt/huawei/Bigdata/FusionInsight_V100R002C60XXX/dbservice/bak目录配置项后面的delete="no"删除,修改后内容见“图表-2”,XXX根据具体的版本确定;


图表 2 DBService同步配置文件修改后内容

5.   执行命令"ps -ef | grep ha.bin | grep dbservice",查询出HA进程的pid,执行kill -9 <hapid>,停止掉ha进程,其中<hapid>ps命令查询出的第二列值;

6.   等待2分钟左右,再次执行"ps -ef | grep ha.bin | grep dbservice",确认HA进程是否已经正常启动;

7.   登陆备DBServer节点,确认文件"/opt/huawei/Bigdata/FusionInsight/dbservice/ha/module/hasync/plugin/conf/dbservice_sync.xml"是否已同步修改"步骤3"的内容,如果未同步则手动删除;

8.   在备DBServer节点重复执行步骤4、步骤5,重启HA进程;

9.   登陆主DBServer节点,切换到omm用户,执行HA文件全同步操作 /opt/huawei/Bigdata/FusionInsight/dbservice/ha/module/hacom/tools/ha_client_tool --syncallfile

全同步执行成功后,等待2分钟左右,在备DBServer节点检查上述目录下的多余文件是否已经成功删除;

 

排查主备OMS节点的备份目录/srv/BigData/LocalBackup下文件是否一致。如果不一致,则将备份目录下的文件备份到其他磁盘,并手动删除该目录下的文件,主备节点都删除。

排查主备DBService节点的/opt/huawei/Bigdata/FusionInsight/dbservice/bak目录下文件是否一致。如果不一致,则将备份目录下的文件备份到其他磁盘,并手动删除该目录下的文件,主备节点都删除。

FusionInsight HD V100R002C60U10SPC003已修复OMS节点的备份目录、备DBServer节点的备目录文件数不断增加的问题

建议与总结

.此次出现上传补丁包问题主要是由于软件本身bug导致备份目录文件数不断增加,长时间运行可能把磁盘空间占满,初期设计需要将此问题规避或者更新到C60U10SPC003补丁,防止后期出现此类情况

END