所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
管理域节点异常

管理域节点异常

本节介绍除OM-Core01,OM-Core02,OM-Core03节点外的所有管理域节点异常恢复的操作。

异常现象

虚拟机状态不可用且通过强制重启无法修复。

异常处理

前提条件
  • FusionStage环境OM-Core01,OM-Core02,OM-Core03中其中一个节点机器已重建,其余两台正常,集群正常工作,重建操作请参见IaaS层相关指导文档。
  • 重建的OM-Core节点IP及VIP保持不变。
  • 重建的OM-Core节点的规格与原节点保持一致。
删除故障节点
操作步骤
  1. 以paas用户登录OM-Core01节点。
  2. 更新虚拟机配置。

    cd /opt/paas/bootstrap/bin

    ./fsadm addvm CorebaseHA -m base -f ../knowledge/fusionstage_CorebaseHA.yaml

  3. 删除故障节点。

    1. 查询故障节点,记录节点名称,即NAME列。

      kubectl get no --all-namespaces

    2. 导出故障节点信息至文件中。

      kubectl get no manage-cluster3-4f5b4eaa-4vsjv -n manage -oyaml > /tmp/manage-cluster3.yaml

      • manage-cluster3-4f5b4eaa-4vsjv:为3.a中查询的故障节点的名称。
      • manage-cluster3.yaml:故障节点信息文件,名称由用户自定义,建议与故障节点名称前半部分一致。
    3. 删除故障节点。

      租户管理域执行如下命令删除:

      kubectl delete no <节点名称> -n manage --grace-period=0 --force

      运维管理域执行如下命令删除:

      kubectl delete no <节点名称> -n om --grace-period=0 --force

      说明:

      租户管理域,命令中使用“manage”;运维管理域,命令中使用“om”。

安装管理域虚拟机
前提条件

异常虚拟机已重建,并且虚拟机的IP、镜像、硬盘、操作系统与原虚拟机一致。

操作步骤
  1. 使用PuTTY,登录om_core1_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  2. 执行以下命令切换到root用户。

    su - root

    paasword: root用户密码

  3. 首先查看/home/paas/create_vol_tool/、/var/log/tools/create_vol/或/tmp目录下是否有结尾为.flag或create_vol.log的挂卷日志文件,如果有就删除,没有就跳过,然后切换到paas用户,重新对重建虚拟机挂载磁盘,挂载操作请参考《安装指南》中“安装前准备>挂载磁盘”章节。
  4. 重新纳管节点。

    1. 编辑节点配置信息文件。

      vi /tmp/manage-cluster3.yaml

      manage-cluster3.yaml:为删除故障节点3.b生成的节点配置信息文件。

      删除creationTimestamp、resourceVersion、selfLink、uid字段,以及status域内容。

      说明:

      如果存在unschedulable: true项,请将值true改为false,不存在请忽略。

    2. 保存并退出。
    3. 纳管节点。

      kubectl create -f /tmp/manage-cluster3.yaml

  5. 检查重建节点状态。

    1. 查询重建节点纳管状态。

      kubectl get no --all-namespaces

      可查询出节点状态如下:unknown、notready和ready。

    2. 以paas用户登录重建节点,查询节点服务运行状态。

      monit summary

      • 如果所有服务均为Running状态,说明纳管节点成功。
      • 如果出现服务一直是故障状态,可以使用monit restart {Service Name}命令进行服务重启。

        {Service Name}为查询到的故障服务名称。

  6. (可选)恢复cfe-etcd。

    查看manage-cluster3.yaml中label信息,如果含有manage.etcd:etcd,请参考CFE-ETCD故障恢复章节恢复cfe-etcd,否则跳过此步骤。

  7. (可选)恢复mysql。

    查看manage-cluster3.yaml中label信息,如果含有manage.mysql:mysql,请参考DBM数据库故障恢复恢复mysql,否则跳过此步骤。

  8. 检查重建节点上的pod状态。

    kubectl get pods -n manage -o wide | grep <节点名称>

    节点名称:为删除故障节点3.a查询的NAME字段名称。

    如果状态全为Running,表示节点修复成功。

    说明:
    • 以上仅以租户管理域节点的异常修复操作为例,运维管理域节点异常修复请将命令中“manage”字段替换为“om”即可。
    • 如果存在异常pod、状态非Running的实例,可通过删除pod尝试再次拉起。

      例如管理域节点的ICAgent pod状态异常,可通过命令kubectl delete pod name -n om --grace-period=0 --force删除该pod。name为查询到的异常pod名称,即NAME列字段。

    • 如果需要修改重建节点的主机名,可通过执行以下步骤完成修改。
      1. 以paas用户登录重建节点,切换到root用户,然后执行以下命令临时修改主机名。

        hostname {新主机名}

      2. 同时执行以下命令修改配置文件使主机名永久生效。

        echo '{新主机名}' > /etc/hostname

      3. 以paas用户登录重建节点后即会生效

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:19239

下载量:447

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页