所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
运维管理域节点异常

运维管理域节点异常

本节介绍运维域节点中的OM-Core01,OM-Core02,OM-Core03节点异常恢复的操作。

异常现象

OM-Core节点异常,可能是如下原因导致虚拟机不可用。

  • 操作系统崩溃。
  • 磁盘异常。

异常处理

前提条件
  • FusionStage环境OM-Core01,OM-Core02,OM-Core03中其中一个节点机器已重建,其余两台正常,集群正常工作,重建操作请参见IaaS层相关指导文档。
  • 重建的OM-Core节点IP及VIP保持不变。
  • 重建的OM-Core节点的规格与原节点保持一致。
操作步骤

如果环境做了安全加固,操作前要添加sudo权限,操作完之后再去掉sudo权限。

  1. 开启paas用户sudo权限。

    1. paas用户登录到重建节点。
    2. 切换到root用户,并根据提示输入密码。

      su - root

    3. 修改sudo白名单。

      echo "%paas ALL=(ALL) NOPASSWD: ALL" >> /etc/sudoers

  2. 准备证书文件。

    1. 以paas用户登录至重建节点,执行以下命令创建证书目录。

      mkdir -p /var/paas/cert

      chmod 700 /var/paas/cert

    2. 以paas用户登录到正常工作的OM-Core01或OM-Core02其中一台正常运行的机器上,执行以下命令将证书拷贝到重建的虚机上。

      scp /var/paas/srv/kubernetes/* paas@{重建节点IP}:/var/paas/cert/

      说明:
      • 请根据提示输入机器的paas用户密码。
      • 如果证书鉴权认证失败,请执行命令vim ~/.ssh/known_hosts 删除重建节点的指纹。
    3. 切换至root用户,并根据提示输入root用户密码。

      su root

    4. 拷贝docker证书至重建的虚机上。

      scp /etc/docker/certs.d/{OM-Core01/02节点的VIP}:20202/client.key paas@{重建节点IP}:/var/paas/cert/kubecfg.key

      说明:
      • 请根据提示输入重建节点的paas用户密码。
      • 如果证书鉴权认证失败,请执行命令vim ~/.ssh/known_hosts 删除重建节点的指纹。
    5. 以paas用户登录到重建节点上,修改证书权限。

      chmod 600 /var/paas/cert/*

  3. 准备版本包文件。

    1. 通过远程传输工具,以paas用户上传环境版本号相同的FusionStage安装包至重建节点的“/var/paas”目录下。
    2. 准备重建节点的配置文件。在正常运行的OM-Core01或者OM-Core02节点上执行以下命令。

      cd /var/paas/bootstrap/bin

      ./fsadm addvm CorebaseHA -m base -f ../knowledge/fusionstage_CorebaseHA.yaml

    3. 以paas用户登录到重建的节点,执行以下命令解压版本包。

      unzip /var/paas/FusionStage-Base-XXX.zip -d /var/paas/FusionStage-Base

      说明:

      上述版本包仅为示例,请以实际情况为准。

    4. 准备bootstrap包。

      scp -r paas@{步骤b中执行命令的节点IP}:/var/paas/bootstrap /var/paas/

      说明:

      请根据提示输入对应机器的paas密码。

      rm -rf /var/paas/bootstrap/images

      cp -r /var/paas/FusionStage-Base/bootstrap/images /var/paas/bootstrap/

      cp -r /var/paas/FusionStage-Base/bootstrap/package /var/paas/bootstrap/

  4. (可选)准备keepalived和haproxy的配置文件。

    说明:

    仅OM-Core01或者OM-Core02节点重建恢复时需要执行本步骤。

    1. 以paas用户登录到重建的虚机上,执行以下命令从OM-Core01或OM-Core02其中一台正常运行的节点上拷贝keepalived和haproxy配置文件。

      mkdir -p /var/paas/srv/

      chmod 750 /var/paas/srv

      scp -r paas@{正常运行的OM-Core01或OM-Core02节点IP}:/var/paas/srv/haproxy /var/paas/srv

      scp -r paas@{正常运行的OM-Core01或OM-Core02节点IP}:/var/paas/srv/keepalived /var/paas/srv/

      说明:

      请根据提示输入正常运行的OM-Core01或者OM-Core02节点IP的paas密码。

    2. 修改keepalived配置文件。

      vim /var/paas/srv/keepalived/keepalived.conf

      互换配置文件中unicast_src_ip和unicast_peer对应的IP值。

  5. 以paas用户登录到需要重建的节点,执行以下命令重建执行节点。

    cd /var/paas/bootstrap/bin

    ./fsadm addvm CorebaseHA -m base -f ../knowledge/fusionstage_CorebaseHA.yaml

    ./fsadm restore {节点类型} -m CorebaseHA

    节点类型是指需要重建的节点类型,支持om-core1,om-core2和om-core3三种类型,分别对应OM-Core01,OM-Core02和OM-Core03三个节点。

    终端显示如下类似信息,则表示重建节点成功。回显信息中om-core2字段请以实际重建节点为准。

    ***********************************************************************
    [ 2017-08-14 11:32:16 ] End exec job:  labelNode
    ***********************************************************************
    End of restoring node: om-core2

  6. 删除安装包

    rm -rf /var/paas/FusionStage-Base

    说明:
    • 节点重建完成后,可通过kubectl get pods --all-namespaces命令查询pod状态,如果不为Running,可能出现如下异常:
      • 如果运维管理域节点的ICAgent pod状态异常,可通过命令kubectl delete pod name -n om --grace-period=0 --force删除该pod。name为查询到的pod名称,即NAME列字段。
      • 如果运维管理域节点的DBAgent pod状态异常,可通过命令kubectl delete pod name -n om --grace-period=0 --force删除该pod。name为查询到的pod名称,即NAME列字段。如果仍然异常,请联系华为技术支持工程师。
      • 如果运维管理域节点的kube-apiserver pod状态异常,可先在该pod运行节点上执行 ps -ef | grep kube-api查询进程ID后,执行kill -9 {进程ID}删除该pod。
    • 节点重建完成后,可通过如下命令查询数据库实例状态。

      cd /opt/paas/oss/manager/apps/DBAgent/bin

      ./dbsvc_adm -cmd query-db-instance

      如果Rpl Status列为Alnormal状态,说明OM-Core01/02节点DBM数据库异常,请参考DBM数据库故障恢复进行恢复操作。

  7. 取消sudo权限。

    root用户,打开/etc/sudoers文件,删除或注销"%paas ALL=(ALL) NOPASSWD: ALL"该行。

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:18259

下载量:438

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页