所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
异常节点ETCD应急恢复

异常节点ETCD应急恢复

租户管理域

异常现象

pod处于Error、CrashLoopBackOff、Unknown或NodeLost状态。

异常处理
  1. 使用PuTTY,登录om_core1_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  2. 查询节点信息。

    kubectl get node --all-namespaces

    回显信息如下:

    NAMESPACE   NAME                                     STATUS     AGE
    manage      paas-manage-apm1-7d03ba8e-823f-1-14x5m   Ready      1d
    manage      paas-manage-apm2-7d03ba8e-823f-1-pt1kx   Ready      1d
    manage      paas-manage-core1-7d03ba8e-823f-18qbn    Ready      1d
    manage      paas-manage-core2-7d03ba8e-823f-02k5p    Ready      1d
    manage      paas-manage-core3-7d03ba8e-823f-f3j5m    Ready      1d
    manage      paas-manage-core4-7d03ba8e-823f-cp30f    Ready      1d
    manage      paas-manage-core5-7d03ba8e-823f-gklq7    NotReady   1d
    manage      paas-manage-db1-7d03ba8e-823f-11-wb46f   Ready      1d
    manage      paas-manage-db2-7d03ba8e-823f-11-c7vxn   Ready      1d
    manage      paas-manage-elb-lvs1-7d03ba8e-82-bm58d   Ready      1d
    manage      paas-manage-elb-lvs2-7d03ba8e-82-75t05   Ready      1d
    manage      paas-manage-elb-nginx1-7d03ba8e-xhs1w    Ready      1d
    manage      paas-manage-elb-nginx2-7d03ba8e-njqxm    Ready      1d
    manage      paas-manage-elb-svc1-7d03ba8e-82-x7xvm   Ready      1d
    manage      paas-manage-elb-svc2-7d03ba8e-82-28lwm   Ready      1d
    manage      paas-manage-iam1-7d03ba8e-823f-1-58wzr   Ready      1d
    manage      paas-manage-iam2-7d03ba8e-823f-1-5d9l9   Ready      1d
    manage      paas-manage-swr1-7d03ba8e-823f-1-q8gl7   Ready      1d
    manage      paas-manage-swr2-7d03ba8e-823f-1-03l5g   Ready      1d
    manage      paas-manage-swr3-7d03ba8e-823f-1-k9k37   Ready      1d
    manage      paas-manage-swr4-7d03ba8e-823f-1-3kwf3   Ready      1d
    manage      paas-manage-tenant1-7d03ba8e-823-kfx7w   Ready      1d
    manage      paas-manage-tenant2-7d03ba8e-823-1g296   Ready      1d
    om          paas-10-177-119-155                      Ready      1d
    om          paas-10-184-42-132                       Ready      1d
    om          paas-10-184-43-79                        Ready      1d
    om          paas-om-apm1-c47c95f1-823c-11e7-tglpm    Ready      1d
    om          paas-om-apm2-c47c95f1-823c-11e7-t31w0    Ready      1d

    记录不正常的节点Name,本例中为paas-manage-core5-7d03ba8e-823f-gklq7

  3. 导出不正常的节点的描述文件。

    kubectl get no paas-manage-core5-7d03ba8e-823f-gklq7 -n manage -oyaml > manage-core5.yaml

  4. 删除不正常节点。

    kubectl delete no paas-manage-core5-7d03ba8e-823f-gklq7 -nmanage

    回显信息如下:

    node "paas-manage-core5-7d03ba8e-823f-gklq7" deleted

  5. 待虚拟机重建后,重新纳管该节点。

    kubectl create -f manage-core5.yaml

    回显信息如下:

    node "paas-manage-core5-7d03ba8e-823f-gklq7" created

  6. 查询节点信息,直到paas-manage-core5-7d03ba8e-823f-gklq7节点的状态为Ready。

    kubectl get node --all-namespaces

    回显信息如下:

    NAMESPACE   NAME                                     STATUS     AGE
    manage      paas-manage-apm1-7d03ba8e-823f-1-14x5m   Ready      1d
    manage      paas-manage-apm2-7d03ba8e-823f-1-pt1kx   Ready      1d
    manage      paas-manage-core1-7d03ba8e-823f-18qbn    Ready      1d
    manage      paas-manage-core2-7d03ba8e-823f-02k5p    Ready      1d
    manage      paas-manage-core3-7d03ba8e-823f-f3j5m    Ready      1d
    manage      paas-manage-core4-7d03ba8e-823f-cp30f    Ready      1d
    manage      paas-manage-core5-7d03ba8e-823f-gklq7    Ready      2m
    manage      paas-manage-db1-7d03ba8e-823f-11-wb46f   Ready      1d
    manage      paas-manage-db2-7d03ba8e-823f-11-c7vxn   Ready      1d
    manage      paas-manage-elb-lvs1-7d03ba8e-82-bm58d   Ready      1d
    manage      paas-manage-elb-lvs2-7d03ba8e-82-75t05   Ready      1d
    manage      paas-manage-elb-nginx1-7d03ba8e-xhs1w    Ready      1d
    manage      paas-manage-elb-nginx2-7d03ba8e-njqxm    Ready      1d
    manage      paas-manage-elb-svc1-7d03ba8e-82-x7xvm   Ready      1d
    manage      paas-manage-elb-svc2-7d03ba8e-82-28lwm   Ready      1d
    manage      paas-manage-iam1-7d03ba8e-823f-1-58wzr   Ready      1d
    manage      paas-manage-iam2-7d03ba8e-823f-1-5d9l9   Ready      1d
    manage      paas-manage-swr1-7d03ba8e-823f-1-q8gl7   Ready      1d
    manage      paas-manage-swr2-7d03ba8e-823f-1-03l5g   Ready      1d
    manage      paas-manage-swr3-7d03ba8e-823f-1-k9k37   Ready      1d
    manage      paas-manage-swr4-7d03ba8e-823f-1-3kwf3   Ready      1d
    manage      paas-manage-tenant1-7d03ba8e-823-kfx7w   Ready      1d
    manage      paas-manage-tenant2-7d03ba8e-823-1g296   Ready      1d
    om          paas-10-177-119-155                      Ready      1d
    om          paas-10-184-42-132                       Ready      1d
    om          paas-10-184-43-79                        Ready      1d
    om          paas-om-apm1-c47c95f1-823c-11e7-tglpm    Ready      1d
    om          paas-om-apm2-c47c95f1-823c-11e7-t31w0    Ready      1d

  7. 进入正常节点,假设正常节点为etcd-event-1,查找etcd-event-1容器。

    sudo docker ps | grep etcd-event

    回显如下,红框为下面步骤 8中用到的containerId

  8. 进入容器。

    sudo docker exec -it containerId bash

    在容器里查询ETCD集群的各节点状态。

    ETCDCTL_API=3 /start-etcd --cacert /srv/kubernetes/ca.crt --cert /srv/kubernetes/server.cer --key /srv/kubernetes/server_key.pem --endpoints https://127.0.0.1:4002 member list -w table
    说明:
    • 默认情况下,4001为etcd集群的client port,4002为etcd-event的client port,4003为etcd-network的client port。
    • 恢复etcd和etcd-network时,命令中对应的端口分别为:etcd、etcd-network的端口。

    回显信息如下:

    查询详细状态:

    ETCDCTL_API=3 /start-etcd --cacert /srv/kubernetes/ca.cer --cert /srv/kubernetes/server.cer --key /srv/kubernetes/server_key.pem --endpoints https://10.184.43.79:4002,https://10.177.119.155:4002,https://10.184.42.132:4002 endpoint status

    endpoints 使用前面步骤 7中查出的client addrs替换。

    回显如下:

    当各节点状态均显示,表示异常节点ETCD恢复正常。

  9. 按照步骤 1- 步骤 8操作,继续恢复etcd集群和network-etcd集群的异常节点。

运维管理域

异常现象

pod处于Error、CrashLoopBackOff、Unknown或NodeLost状态。

异常处理
前提条件

已将paas用户加入白名单,请参考如何解决sudo命令不能使用的问题

操作步骤
  1. 使用PuTTY,登录om_core1_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  2. 执行以下命令,查询节点信息。

    kubectl get node -n om

    NAMESPACE   NAME                                     STATUS     AGE  
    om          paas-10-177-119-155                      Ready      1d  
    om          paas-10-184-42-132                       NotReady   1d  
    om          paas-10-184-43-79                        Ready      1d  
    om          paas-om-apm1-c47c95f1-823c-11e7-tglpm    Ready      1d  
    om          paas-om-apm2-c47c95f1-823c-11e7-t31w0    Ready      1d

    记录不正常的节点NAME,本例中为paas-10-184-42-132

  3. 执行以下命令,导出不正常的节点的描述文件。

    kubectl get no paas-10-184-42-132 -n om -oyaml > paas-10-184-42-132.yaml

  4. 执行以下命令,删除不正常节点。

    kubectl delete no paas-10-184-42-132 -n om

    如果显示以下信息,说明节点删除成功。

    node "paas-10-184-42-132" deleted

  5. 待虚机重建后,执行以下命令,重新纳管该节点。

    kubectl create -f paas-10-184-42-132.yaml

    如果显示以下信息,说明节点重新纳管成功。

    node "paas-10-184-42-132" created

  6. 执行以下命令,查询节点信息,直到paas-10-184-42-132节点的状态为Ready。

    kubectl get node --all-namespaces

    NAMESPACE   NAME                                     STATUS     AGE  
    om          paas-10-177-119-155                      Ready      1d 
    om          paas-10-184-42-132                       Ready      2m 
    om          paas-10-184-43-79                        Ready      1d  
    om          paas-om-apm1-c47c95f1-823c-11e7-tglpm    Ready      1d  
    om          paas-om-apm2-c47c95f1-823c-11e7-t31w0    Ready      1d

  7. 假设正常节点为etcd-event-1,执行以下命令,查询etcd-event-1所在节点IP。

    kubectl get pod etcd-event-1 -nmanage -oyaml | grep hostIP

     hostIP:10.154.248.63

  8. 登录etcd-event-1所在节点,执行以下命令,查询etcd-event的容器ID。

    sudo docker ps | grep etcd-event

    6d774ac2ac2e        cfe-etcd:2.8.7                                            "/bin/sh -c 'umask 06"   2 days ago          Up 2 days                               k8s_etcd-container.d6f90091_etcd-event-server-10.184.42.132_om_9f4b2d62d846556015bb495930f7fa4f_6a546c2e 
    b577e0f5e45a        paas-cfe-pause-bootstrap                                  "/pause"                 2 days ago          Up 2 days                               k8s_POD.6d5cdc5e_etcd-event-server-10.184.42.132_om_9f4b2d62d846556015bb495930f7fa4f_561795ae

    本例中etcd-event对应的容器ID为6d774ac2ac2e

  9. 执行以下命令,进入容器,查询ETCD集群的各节点状态。

    sudo docker exec -it 6d774ac2ac2e bash

    ETCDCTL_API=3 /start-etcd --cacert /srv/kubernetes/ca.crt --cert /srv/kubernetes/server.cer --key /srv/kubernetes/server_key.pem --endpoints https://127.0.0.1:4002 member list -w table

    说明:

    默认情况下,4001为etcd集群的client port,4002为etcd-event的client port,4003为etcd-network的client port。恢复etcd和etcd-network时,命令中对应的端口分别为:etcd、etcd-network的端口。

    1f4397f9956e1e8b, started, infra1, https://10.184.43.79:2381, https://10.184.43.79:4002
    9a3dd24ebfc5c212, started, infra2, https://10.177.119.155:2381, https://10.177.119.155:4002 
    fc4a4cd2cf50cbf1, started, infra0, https://10.184.42.132:2381, https://10.184.42.132:4002

  10. 执行以下命令,查询详细状态。

    ETCDCTL_API=3 /start-etcd --cacert /srv/kubernetes/ca.crt --cert /srv/kubernetes/server.cer --key /srv/kubernetes/server_key.pem --endpoints

    https://10.184.43.79:4002,https://10.177.119.155:4002,https://10.184.42.132:4002 endpointstatus -w table

    说明:

    https://10.184.43.79:4002、https://10.177.119.155:4002和https://10.184.42.132:4002是步骤 9中查询的节点信息。

    2017-10-17 19:17:05.436874 I | warning: ignoring ServerName for user-provided CA for backwards compatibility is deprecated 
    https://10.184.42.132:4002, 789255c1b33cdf6c, 3.1.9, 2.9 MB, false, 9, 208381 
    https://10.184.43.79:4002, 6d4b75513d41feef, 3.1.9, 2.9 MB, true, 9, 208381 
    https://10.177.119.155:4002, 4a8a968eaefcca8b, 3.1.9, 2.9 MB, false, 9, 208381

    当各节点状态均显示,表示异常节点ETCD恢复正常。

  11. 按照步骤 1~步骤 10操作,继续恢复etcd集群和etcd-network集群的异常节点。
翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:22490

下载量:453

平均得分:
本文档适用于这些产品

相关版本

相关文档

Share
上一页 下一页