所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
应用类

应用类

执行rescan-scsi-bus.sh命令扫描新映射的LUN时,任务长时间运行

现象描述

当eBackup服务器加入FusionStorage集群,系统有新增加的映射LUN时,执行rescan-scsi-bus.sh命令扫描新映射的LUN时,任务长时间运行不能结束。

可能原因

FusionStorage Agent版本与FusionStorage版本不匹配,导致在eBackup服务器上扫描LUN功能异常。

处理步骤
  1. 使用PuTTY,以“datamover_externalom_iplist”字段对应的IP地址依次登录Server和Proxy角色所在节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行reboot命令重新启动eBackup服务器操作系统。
  4. 重新将eBackup服务器加入FusionStorage集群。

    具体操作方法请参见将eBackup服务器加入FusionStorage集群

eBackup服务器的“/opt”分区的容量利用率超过96%时,eBackup服务停止

现象描述

eBackup服务器(Manager、Workflow、Server或Proxy)的“/opt”分区的容量利用率超过96%,eBackup服务停止,不能登录eBackup GUI。

可能原因

eBackup服务器(Manager、Workflow、Server或Proxy)的“/opt”分区的剩余空间不足。

处理步骤
  1. 使用PuTTY,以管理IP地址登录workflow-eBackup01节点(Manager角色所在的节点)、workflow-eBackup02节点(Workflow角色所在的节点)、Server角色所在的节点或Proxy角色所在的节点。

    登录地址:
    • workflow-eBackup01节点的管理IP地址为:“Workflow-PublicService-IP0”字段对应的IP地址。
    • workflow-eBackup02节点的管理IP地址为:“Workflow-PublicService-IP1”字段对应的IP地址。
    • Server和Proxy角色所在节点的管理IP地址为“datamover_externalom_iplist”字段对应的IP地址。

    在CSHA或管理面跨AZ高可用场景下,Manager角色所在节点的名称为“workflow-eBackup”;Workflow角色所在节点的名称为“dr-workflow-eBackup”

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行TMOUT=0命令,防止系统超时退出。
  4. 执行df -h /opt命令,检查“/opt”分区的剩余空间。当容量利用率超过96%时,执行rm 文件名命令或者rm -rf 文件夹名命令删除备份软件之外不需要的文件或者文件夹。
  5. 执行service hcp start命令,启动eBackup服务。
  6. 重新登录eBackup GUI。

当使用HA功能时且备节点处于“不可访问”状态不能修复时,无法移除该备节点

现象描述

在eBackup GUI上,当使用HA功能时且备节点处于“不可访问”状态不能修复时,无法移除备节点。

可能原因
  • 主备节点之间的网络故障。
  • 备节点上的进程故障。
处理步骤

可能原因1:备节点上的进程故障。

  1. 使用PuTTY,以管理IP地址登录备节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行TMOUT=0命令,防止系统超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  4. 执行service hcp status命令,确认eBackup服务是否正常。

    • 是 , 执行步骤5
    • 否 , 请执行cd /opt/huawei-data-protection/ebackup/bin命令进入“/bin”目录,执行sh uninstall.sh卸载eBackup软件,处理完毕。

可能原因2:主备节点之间的网络故障。

  1. 清除HA配置信息。

    1. 执行cd /opt/huawei-data-protection/ebackup/bin命令进入“/bin”目录。
    2. 执行sh ha_tool.sh clear命令清除HA配置信息

  2. 使用PuTTY,以管理IP地址登录主节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  3. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  4. 执行TMOUT=0命令,防止系统超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  5. 参考步骤 5清除HA配置信息。
  6. 停止HA进程。

    1. 执行cd /opt/huawei-data-protection/ebackup/ha/module/hacom/script命令进入“/script”目录。
    2. 执行sh stop_ha_process.sh命令停止HA进程。

  7. 等待几分钟,在eBackup GUI上查看备节点是否已被移除:

    • 是,处理完毕。
    • 否,请联系技术支持。

HA场景下,在主备节点分别执行sh status_ha.sh,GaussDB资源处于异常状态

现象描述

HA场景下,在主备节点分别执行sh status_ha.sh命令,GaussDB资源处于异常状态。

正常的回显信息:

不是以上截图红框的显示状态均属于异常状态,如:

可能原因
主备数据库同步异常。

执行以下处理步骤可能会导致丢失少量数据,请谨慎操作。

处理步骤
  1. 使用PuTTY,以管理IP地址登录主备节点中的任意一个节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行TMOUT=0命令,防止“PuTTY”超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  4. 执行cd /opt/huawei-data-protection/ebackup/bin命令,进入监控主备节点GaussDB的数据同步的命令所在路径。
  5. 执行sh db_sync_monitor.sh get_status命令,记录回显信息。

    DB last online role : Primary 
    DB last online time : 2016-04-14 16:38:31     

  6. 使用PuTTY,以管理IP地址登录主备节点中的另一个节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  7. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  8. 执行TMOUT=0命令,防止“PuTTY”超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  9. 执行cd /opt/huawei-data-protection/ebackup/bin命令,进入监控主备节点GaussDB的数据同步的命令所在路径。
  10. 执行sh db_sync_monitor.sh get_status命令,记录回显信息。

    DB last online role : Standby 
    DB last online time : 2016-04-14 16:38:31     

  11. 比较两个节点输出的回显信息,确定作为主节点的节点。

    • DB last online role:当一个为Primary,另一个为Stanby时,选择角色为Primary的节点作为主节点。
    • DB last online role:当两个都为Primary时,选择DB last online time最新的节点作为主节点。

  12. 使用PuTTY,以管理IP地址登录主节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  13. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  14. 在主节点上执行service hcp restart force命令,强制重启hcp进程。
  15. 登录eBackup GUI查看节点状态是否恢复正常:

    • 是,处理完毕。
    • 否,联系技术支持。

HA场景下,主备节点已正确配置,主节点的服务无法正常启动

现象描述
  1. HA场景下,主节点服务无法正常启动。在主节点执行service hcp start命令,显示如下回显信息:
    eBackup: /opt/huawei-data-protection/ebackup/conf #service hcp start 
    Starting Huawei eBackup Service 
    This is primary node, but syncronized status is not correct.Restore the environment by seeing related fault cases in the corresponding product documentation.
  2. 在备节点上执行service hcp start命令可以正常启动备节点服务,由于主节点无法启动,隔2分钟左右,备节点切换为主节点,执行service hcp status命令,查看eBackup进程,AdminNode的服务异常,系统无法正常登录。
    eBackup: /home #service hcp start  
    Starting Huawei eBackup Service  
     
    eBackup: /home #service hcp status 
    Checking for Huawei eBackup Service 
    gaussdb is running 
    AdminNode isn't running. 
    BackupNode is running 
    hcplogrotate is running 
    apache/iBase is running 
    dsware_agent is running 
    HCPProcessMonitor is running 
    OmmHaMonitor is running 
可能原因

停止所有节点的服务或意外掉电后,等待超过10分钟或系统时间被修改后的时间差超过10分钟再启动各节点服务,主节点服务无法正常启动。

处理步骤
  1. 使用PuTTY,以管理IP地址依次登录主备节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行TMOUT=0命令,防止“PuTTY”超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  4. 分别在两个节点上执行sh /opt/huawei-data-protection/ebackup/bin/db_sync_monitor.sh get_status命令,确认主节点。

    • 如果两个节点的角色是“Primary”和“Standby”,则角色为“Primary”的节点为主节点。
    • 如果两个节点的角色都是“Primary”,则比较在线时间,时间较当前最近的节点为主节点。

  5. 在主节点上执行service hcp start force命令,强制启动服务。

添加完VMware类型受保护环境后eBackup管理界面操作频繁出现“与设备通信异常”现象

现象描述

在添加完VMware类型受保护环境后,eBackup管理界面操作频繁出现“与设备通信异常”现象。

可能原因

存在域名超过32Byte的VMware主机。

定位思路
  1. 使用PuTTY,以“datamover_externalom_iplist”字段对应的IP地址登录Server角色所在节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行TMOUT=0命令,防止“PuTTY”超时退出。
    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  4. 执行cd /opt/huawei-data-protection/ebackup/logs/命令进入eBackup日志目录。
  5. 执行cat HCP_AdminNode.log |grep "Got error from ODBC"命令,将会搜索到多条记录。

  6. 使用VMware vSphere Client登录添加的VMware环境。
  7. 进入“主页 > 清单 > 主机和集群”页面,查看所有主机。
  8. 查看所有主机,如果其中存在域名超过32Byte的主机,则确认是该问题。

    移除域名超过32Byte的主机,并重新使用IP添加该主机,或者修改其域名为小于等于32Byte后,重新使用新的域名添加该主机。

处理步骤
  1. 使用VMware vSphere Client登录添加的VMware环境。
  2. 断开域名超过32Byte的主机。

  3. 移除域名超过32Bypte的主机。

  4. 重新添加主机。

  5. 在“添加主机向导”中输入主机IP(建议使用IP,也可以修改主机域名后使用新域名,新域名要求小于等于32Byte)重新添加主机。

  6. 添加完成后,登录eBackup GUI,发起VMware环境的扫描任务。

    • 扫描任务执行成功,则问题已解决。
    • 扫描任务执行失败否,请联系技术支持。

Proxy(或Workflow)无法注册到Server(或Manager)

现象描述
  • 现象一:Server和Proxy部署在不同的节点上,当对Server进行灾难恢复后,或当Proxy配置错误时,Proxy无法注册到Server。
  • 现象二:将Server(或Manager)由V200R001C00或V200R001C10升级到V200R001C30,新部署的Proxy(或Workflow)无法注册到Server(或Manager)。
可能原因
  • 现象一可能原因:重新配置eBackup后,公私钥信息改变。
  • 现象二可能原因:Server(或Manager)和Proxy(或Workflow)的公私钥信息不一致。
处理步骤
  1. 使用PuTTY,以管理IP地址登录Proxy角色所在的节点(或workflow-eBackup02节点)。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

    如果现象是Proxy无法注册到Server,则登录Proxy角色所在的节点

    如果现象是Workflow无法注册到Manager,则登录workflow-eBackup02

    workflow-eBackup02节点的管理IP地址为:“Workflow-PublicService-IP1”字段对应的IP地址。

    在CSHA或管理面跨AZ高可用场景下,Manager角色所在节点的名称为“workflow-eBackup”;Workflow角色所在节点的名称为“dr-workflow-eBackup”

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行cat /opt/huawei-data-protection/ebackup/conf/cert/BackupNode.pub命令,获取Proxy(或Workflow)的公共密钥。
  4. 使用PuTTY,以管理IP地址登录workflow-eBackup01节点(Manager角色所在节点)或Server角色所在节点。

    登录地址:
    • workflow-eBackup01节点的管理IP地址为“Workflow-PublicService-IP0”字段对应的IP地址。
    • Server角色所在节点的管理IP地址为“datamover_externalom_iplist”字段对应的IP地址。

    在CSHA或管理面跨AZ高可用场景下,Manager角色所在节点的名称为“workflow-eBackup”

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  5. 执行cd /opt/huawei-data-protection/ebackup/cli/命令,进入“/opt/huawei-data-protection/ebackup/cli/”目录。
  6. 执行sh hcpcli.sh admin命令,并输入密码。
  7. 执行management命令进入管理视图。
  8. 执行add public_key public_key命令,将Proxy(或Workflow)的公共密钥增加到Server(或Manager)中。其中public_key为获取的Proxy(或Workflow)的公共密钥(长度为40位的字符串)。
  9. 执行service hcp restart,重新启动eBackup进程。

当使用HA功能时发生主备切换后,License不可用

现象描述

当使用HA功能时,在发生主备切换后,License不可用。

可能原因

切换过后的主节点的ESN不在License文件中。

处理步骤
  1. 重新申请License或进行License的ESN变更(需要包含主备节点的ESN)。

    具体操作请参见《FusionCloud 6.3.1 License指南》中的“OceanStor BCManager eBackup”

  2. 导入新的License。

    如果问题没有解决,请联系技术支持处理。

当使用HA功能时发生主备切换后,备份映像丢失

现象描述

当使用HA功能,主节点停止服务情况下发生主备切换后,备份映像丢失。

可能原因

切换过后,数据库信息未同步。

处理步骤
  1. 使用PuTTY,以管理IP地址登录当前的主节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  1. 执行TMOUT=0命令,防止“PuTTY”超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  2. 执行cd /opt/huawei-data-protection/ebackup/cli命令,进入“/opt/huawei-data-protection/ebackup/cli”目录。
  3. 执行sh hcpcli.sh admin命令,登录CLI。
  4. 执行management命令,切换到management模式。
  5. 找回丢失的备份映像。

    • 虚拟化场景
      1. 查询protected_object_id。执行show protected_environment命令,查询受保护环境的ID。

        如图所示:

      2. 执行show protected_environment details=verbose ID=受保护环境的ID命令,查询受保护对象ID。

        其中,受保护环境的ID请从7.a中获取。

        示例:

        show protected_environment details=verbose ID=1

        如图所示:

      3. 执行retrieve backup_image protected_object_id命令,找回丢失的备份映像。

        其中,protected_object_id请从7.b中获取。

        回显信息示例:

        retrieve backup_image d2477874-97b9-5578-bb3c-8dfded73a32a       
        Command send successfully.

        此时,可在eBackup GUI界面上查询任务进程。

        1. 登录eBackup GUI。
        2. 在导航栏上选择“ > 任务”。
        3. 查看找回备份映像任务进度。当任务已完成时,如下图所示:

          此时,请在导航栏上选择“ > 全部备份映像”中查看备份映像是否已找回。

          如果未找回,请继续执行步骤8

    • 私有云场景时,需要从上层OpenStack系统中查询卷的UUID,然后再根据7.c进行备份映像恢复。
    • 当不清楚丢失的备份映像所属卷的UUID或虚拟机的UUID时,具体操作请参见步骤8

  6. 通过恢复存储单元找回丢失的备份映像。

    具体操作请参见《FusionCloud 6.3.1 备份恢复指南》中的“恢复eBackup数据”

    如果问题没有解决,请联系技术支持。

删除备份映像失败

现象描述

当存储空间占满后,执行删除备份映像失败,任务详情中显示:从数据库中删除备份映像信息失败。

可能原因

存储单元的空间耗尽。

处理步骤
  1. 取消激活问题存储单元所关联的备份计划和拷贝计划。

    1. 使用浏览器,登录Server的GUI。

      登录地址:https://datamover_management_float_ip字段对应的IP地址:8088

      默认帐号:admin,默认密码为:使用FCD安装为Cloud12#$,手工方式安装为PXU9@ctuNov17!

    2. 在导航栏上选择“ > 备份计划”。
    3. 单击问题存储单元所关联的备份计划,在右侧信息预览区单击“已激活”状态的下拉箭头,取消激活该备份计划。
    4. 在导航栏上选择“ > 拷贝计划”。
    5. 单击问题存储单元所关联的拷贝计划,在右侧信息预览区单击“已激活”状态的下拉箭头,取消激活该拷贝计划。

  2. 使用PuTTY,登录Server角色所在的节点

    登录地址:可从登录Server的GUI地址中获取其管理IP地址。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  3. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  4. 执行TMOUT=0命令,防止“PuTTY”超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  5. 执行df -h命令,查询存储单元所在的挂载点。

    示例:

  6. 执行cd /opt/huawei-data-protection/ebackup/bricks/存储单元所在的挂载点命令,进入存储单元挂载点。

    示例:

    cd /opt/huawei-data-protection/ebackup/bricks/94500ea0-8273–4015-9f07-3e75bf16e9ea

  7. 执行du -sk DummyFileForDisasteryRecovery.tmp命令,查询文件“DummyFileForDisasteryRecovery.tmp”的大小是否为100MB。

    示例:
    eBackup:/opt/huawei-data-protection/ebackup/bricks/94500ea0-8273-4015-9f07-3e75bf16e9ea # du -sk DummyFileForDisasteryRecovery.tmp
    103172 DummyFileForDisasteryRecovery.tmp

  8. 执行DummyFileForDisasteryRecovery.tmp命令,清空文件“DummyFileForDisasteryRecovery.tmp”。
  9. 等待10秒后再次执行du -sk DummyFileForDisasteryRecovery.tmp命令。

    请确认其占用空间已减至个位数。

    eBackup:/opt/huawei-data-protection/ebackup/bricks/94500ea0-8273-4015-9f07-3e75bf16e9ea # du -sk DummyFileForDisasteryRecovery.tmp
    4 DummyFileForDisasteryRecovery.tmp

  10. 对于之前已下发的问题存储单元所关联的备份映像删除任务,以及备份映像过期任务,系统会在两小时内重试并执行成功。

    另外,也可在eBackup GUI界面上删除备份映像。

  11. 执行df -h命令,查询存储单元空间是否已释放超过200MB。

    • 如果已超过200MB,请继续执行步骤12

    • 如果未超过200MB,请再次执行步骤 10

  12. 恢复文件“DummyFileForDisasteryRecovery.tmp”。

    1. 执行rm DummyFileForDisasteryRecovery.tmp命令。
    2. 等待系统执行恢复任务。
    3. 六分钟后,执行du -sk DummyFileForDisasteryRecovery.tmp命令,查看该文件是否已重新生成,且大小为100MB。

  13. 激活之前问题存储单元所关联的备份计划和拷贝计划。

    请参照步骤 1进行激活操作。

HA节点故障

现象描述
  • HA主节点出现故障,系统自动完成主备切换后,需要对故障节点进行恢复。
  • HA备节点出现故障,对故障节点进行恢复。
可能原因
  • 物理硬件出现故障。
  • 操作系统出现故障。
  • eBackup备份软件出现故障。
处理步骤
  1. 使用PuTTY,以管理IP地址依次登录故障前的主备节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行TMOUT=0命令,防止PuTTY超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  4. 执行service hcp status命令,确认eBackup服务是否正常。

    • 是 => 任务结束。
    • 否 => 请根据具体情况选择处理方法。
      • 故障前的主备节点上eBackup服务均发生故障:请联系技术支持进行灾难恢复。
      • 故障前的主节点故障,而故障前的备节点正常:请先等系统自动完成主备切换之后,再执行步骤 5

        HA主备节点是否切换成功查询方法:

        1. 使用PuTTY,以管理IP地址依次登录故障前的主备节点。

          默认帐户:hcp,默认密码:PXU9@ctuNov17!

        2. 执行su root命令,输入root帐号密码,切换至root帐号。

          root帐号的默认密码为Cloud12#$

        3. 执行TMOUT=0命令,防止PuTTY超时退出。
        4. 执行service hcp status命令。

          当回显如下图所示的信息时,则表示HA主备节点已成功切换。

      • 故障前的备节点故障,而故障前的主节点正常:执行步骤 5

  5. 移除HA成员。

    1. 使用浏览器,登录Manager或Server的GUI。

      登录地址:https://Workflow-Management-Float-IP字段对应的IP地址datamover_management_float_ip字段对应的IP地址:8088

      默认帐号:admin,默认密码为:使用FCD安装为Cloud12#$,手工方式安装为PXU9@ctuNov17!

    2. 在导航栏上选择“ > 服务器”。
    3. 选中需要移除的节点,在“HA管理”的下拉列表中,选择“移除HA成员”。

  6. 根据故障原因在故障节点执行以下步骤。

    • 操作系统无法启动或硬件故障:请先重装操作系统或更换硬件,然后执行步骤 8
    • 操作系统正常启动但ebackup服务无法启动:执行步骤 7

  7. 卸载eBackup软件,请联系技术支持。
  8. 安装并配置eBackup软件,同时配置HA功能,请联系技术支持。
  9. 等待几分钟,查看GUI界面上HA的故障节点是否添加成功。如果问题没有解决,请联系技术支持。

GaussDB数据库异常,出现用户操作(登录、查询等)失败的现象

现象描述

故障场景导致HA自动切换后,主节点GaussDB服务出现异常,导致登录、查询等用户操作失败。

可能原因

HA切换后,主节点GaussDB进程启动失败,导致用户操作数据库失败。

处理步骤
  1. 使用PuTTY,以管理IP地址登录主节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行TMOUT=0命令,防止系统超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  4. 执行cd /opt/huawei-data-protection/ebackup/microservice/ebk_xxx_V200R001C30xx_1.0.0/logs命令,进入“/opt/huawei-data-protection/ebackup/microservice/ebk_xxx_V200R001C30xx_1.0.0/logs”目录。
  5. 执行vi ebk_xxx.log命令,编辑操作日志。

    在日志中搜索“ODBC driver”,查看GaussDB返回错误码是否为“-2”。

    • 如果返回错误码为“-2”,则参照以下步骤进行处理:
      1. 执行cd /opt/huawei-data-protection/ebackup/microservice/ebk_xxx_V200R001C30xx_1.0.0/script命令,进入“/opt/huawei-data-protection/ebackup/microservice/ebk_xxx_V200R001C30xx_1.0.0/script”目录。
      2. 执行sh ebackup_stop.sh命令,停止微服务。
      3. 执行sh ebackup_start.sh命令,启动微服务。
    • 如果返回错误码不是“-2”,则参照以下步骤进行处理:
      1. 执行cd /opt/huawei-data-protection/ebackup/bin命令,进入“/opt/huawei-data-protection/ebackup/bin”目录。
      2. 执行python make_report.py命令,收集操作日志。
      3. 请联系技术支持。

eBackup服务器全部节点下电后,非主节点部分可访问

现象描述

eBackup服务器全部节点下电之后,重新上电时,在软件启动之后,登录eBackup GUI界面查看eBackup服务器信息,发现非主节点均为“部分可访问”的状态,业务不正常。

可能原因

主节点未开放防火墙的5569端口,导致其他节点无法访问主节点。因此BackupNode进程未启动,从而状态都是部分可访问的。

处理步骤
  1. 使用PuTTY,以管理IP地址登录状态为“部分可访问”的节点。

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  2. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  3. 执行TMOUT=0命令,防止系统超时退出。

    说明:

    执行该命令后,当前系统在无操作时会保持运行状态,存在安全风险,为了确保系统安全,请在完成相应操作后,执行exit退出当前系统。

  4. 执行service hcp status命令,确认eBackup服务是否正常。

    查看回显信息中,“BackupNode”的状态是否为“isn't running”。

    ... 
    BackupNode isn't running 
    ...
    • 是 => 继续执行步骤 5
    • 否 => 请联系技术支持。

  5. 执行ps -ef|grep BackupNode命令,判断BackupNode进程启动时间是否为查询前刚启动。

    • 是 => 继续执行步骤 6
    • 否 => 请联系技术支持。

    启动时间显示位置如下图所示:

  6. 使用PuTTY,以管理IP地址登录workflow-eBackup01节点(Manager角色所在节点)或Server角色所在节点。

    登录地址:
    • workflow-eBackup01节点的管理IP地址为“Workflow-PublicService-IP0”字段对应的IP地址。
    • Server角色所在节点的管理IP地址为“datamover_externalom_iplist”字段对应的IP地址。

    在CSHA或管理面跨AZ高可用场景下,Manager角色所在节点的名称为“workflow-eBackup”

    默认帐户:hcp,默认密码:PXU9@ctuNov17!

  7. 执行su root命令,输入root帐号密码,切换至root帐号。

    root帐号的默认密码为Cloud12#$

  8. 执行cd /opt/huawei-data-protection/ebackup/bin命令,进入iptables脚本存放路径。
  9. 执行iptables -nL|grep -w 5569命令,查看防火墙信息。

    • 当无回显信息时,继续执行步骤 10
    • 当有回显信息时,则查看配置是否正确。
      ACCEPT tcp -- 172.28.0.0/20 172.28.0.0/20 tcp dpt:5569
      • 当回显如上信息,即回显信息中存在内部通信平面的IP地址和子网掩码信息,且状态为“ACCEPT”,则表示配置正常。
      • 当回显信息中没有内部通信平面的IP地址和子网掩码信息,或状态为“ACCEPT”,请继续执行步骤 10

  10. 执行iptables -I INPUT -s 内部通信平面IP地址/内部通信平面子网掩码 -d 内部通信平面IP地址/内部通信平面子网掩码 -p tcp -m tcp --dport 5569 -j ACCEPT命令,添加iptables中的5569端口。

    示例:

    iptables  -I INPUT -s 172.28.0.0/20 -d 172.28.0.0/20 -p tcp -m tcp --dport 5569 -j ACCEPT

  11. 执行iptables-save > /etc/sysconfig/iptables命令,保存规则。
  12. 执行iptables -nL|grep -w 5569命令,查看防火墙信息。

    • 当回显信息中存在内部通信平面的IP地址和子网掩码信息,且状态为“ACCEPT”时,等待几分钟后,登录eBackup GUI查看其它节点的状态。
      • 状态为“可访问”。 => 处理完毕。
      • 状态仍为“部分可访问”。 => 请联系技术支持。
    • 当回显信息中没有内部通信平面的IP地址和子网掩码信息,或状态为“ACCEPT”,请联系技术支持。

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:18224

下载量:438

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页