所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
etcd-backup服务所在节点下电或重启导致etcd备份恢复失败(运维管理域)

etcd-backup服务所在节点下电或重启导致etcd备份恢复失败(运维管理域)

现象描述

运维管理域etcd备份成功,下电etcd集群其中的一个节点在下电过程中进行恢复操作,导致etcd恢复失败,etcd的pod可能异常,k8s命令不可用。重新上电节点,手动修复etcd后,再次执行etcd恢复操作时成功。

可能原因

下电的节点是etcd-backup所在节点,节点下电后,其他两个etcd-backup连接不上这个下电的etcd-backup,导致恢复失败。

处理方法

  1. 使用PuTTY,登录om_core1_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  1. 执行如下命令,查看etcd状态。

    kubectl get pod -nom -owide | grep etcd

    系统回显类似如下信息。

    apm-etcd-0                                   1/1       Running   0          1d        172.17.1.131   paas-10-60-20-81
    apm-etcd-1                                   1/1       Running   0          1d        172.17.1.117   paas-10-60-20-115
    apm-etcd-2                                   1/1       Running   0          1d        172.17.1.144   paas-10-60-20-10
    cse-etcd-0                                   1/1       Running   0          21h       172.17.2.112   paas-cse-03-10-60-20-232
    cse-etcd-1                                   1/1       Running   0          21h       172.17.2.136   paas-cse-02-10-60-20-59
    cse-etcd-2                                   1/1       Running   2          21h       172.17.2.185   paas-cse-04-10-60-20-109
    cse-etcd-backup-6b89f6fb4d-lmw59             1/1       Running   0          21h       172.17.2.134   paas-cse-02-10-60-20-59
    cse-etcd-backup-6b89f6fb4d-qxw4n             1/1       Running   0          21h       172.17.2.183   paas-cse-04-10-60-20-109
    etcd-backup-server-paas-192-168-20-187        1/1       Running   0          2d        10.60.20.187   paas-10-60-20-187
    etcd-backup-server-paas-192-168-20-204        1/1       Running   0          2d        10.60.20.204   paas-192-168-20-204
    etcd-backup-server-paas-192-168-20-239        1/1       Running   0          2d        10.60.20.239   paas-192-168-20-239
    etcd-event-server-paas-192-168-20-187         1/1       Running   0          2d        10.60.20.187   paas-192-168-20-187
    etcd-event-server-paas-192-168-20-204         1/1       Running   0          2d        10.60.20.204   paas-192-168-20-204
    etcd-event-server-paas-192-168-20-239         1/1       Running   0          2d        10.60.20.239   paas-192-168-20-239
    etcd-network-server-paas-192-168-20-187       1/1       Running   0          2d        192.168.20.187   paas-192-168-20-187
    etcd-network-server-paas-192-168-20-204       1/1       Running   0          2d        192.168.20.204   paas-192-168-20-204
    etcd-network-server-paas-192-168-20-239       1/1       Running   0          2d        192.168.20.239   paas-192-168-20-239
    etcd-server-paas-192-168-20-187               1/1       Running   0          2d        192.168.20.187   paas-192-168-20-187
    etcd-server-paas-192-168-20-204               1/1       Running   0          2d        192.168.20.204   paas-192-168-20-204
    etcd-server-paas-192-168-20-239               1/1       Running   0          2d        192.168.20.239   paas-192-168-20-239
    • 如果etcd状态都为Running,执行步骤 6
    • 如果该命令不可用或etcd的pod状态异常,执行步骤 3

  2. 分别登录etcd pod所在的节点,执行如下命令,看是否存在etcd-event.manifest、etcd.manifest、etcd-network.manifest。

    cd /var/paas/kubernetes/

    • 如果存在,先执行如下命令把这三个文件移入/var/paas/kubernetes/manifests路径下,再执行步骤 4

      mv etcd* manifests

    • 如果不存在,执行步骤 4

  3. 在OM-Core01节点上再次执行如下命令查看etcd状态。

    kubectl get pod -nom -owide | grep etcd

    • 如果etcd、etcd-event、etcd-network的pod状态为Running,则执行步骤 6
    • 如果pod状态为Pending,则执行步骤 5

  4. paas用户分别登录etcd三个节点,执行如下命令重启kubelet,等待kubelet状态Running。

    monit restart kubelet

    monit summary

  5. 用admin登录运维管理面,再次执行恢复操作。
  6. 待恢复操作成功后,登录OM-Core01节点,执行如下命令,查看etcd状态。

    kubectl get pod -nom -owide | grep etcd

    如果pod状态为Pending,以paas用户分别登录etcd三个节点,执行如下命令,重启kubelet,等待kubelet状态Running。

    monit restart kubelet

    monit summary

    待pod状态都为Runing,说明pod恢复成功,故障恢复成功。

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:18041

下载量:438

平均得分:
本文档适用于这些产品
相关文档
相关版本
Share
上一页 下一页