所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
ETCD数据盘被破坏

ETCD数据盘被破坏

异常现象

现象说明

运维管理域某个集群上的etcd数据盘被破坏,导致节点异常。

前提条件

已将paas用户加入白名单,请参考如何解决sudo命令不能使用的问题

异常确认

运维管理域ETCD涉及etcd、etcd-event、etcd-network三个集群,且集群分别部署在三个不同的运维管理域节点上,如图23-1。本章节以etcd-event为例进行说明,现网请以实际情况为准。

图23-1 运维管理域ETCD部署方式

以正常OM-Core01节点为例,进行异常确认。

  1. 使用PuTTY,登录om_core1_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  2. 运行的etcd-event容器。

    sudo docker ps | grep etcd

    回显信息如下:

    a84671a67e40        10.184.42.33:20202/root/cse-etcd:2.1.14                   "/bin/sh -ec 'umask 0"   2 days ago          Up 2 days                               k8s_cse-etcd.7229286c_cse-etcd-2_om_23f4f878-823d-11e7-9423-286ed489be96_db347cc5
    3364cf75b35a        paas-cfe-pause-bootstrap                                  "/pause"                 2 days ago          Up 2 days                               k8s_POD.6d5cdc5e_cse-etcd-2_om_23f4f878-823d-11e7-9423-286ed489be96_a36de45a
    2efa4ad27935        cfe-etcd:2.8.7                                            "/bin/sh -c 'umask 06"   2 days ago          Up 2 days                               k8s_etcd-container.502905f8_etcd-network-server-10.184.42.132_om_f49345c84316bbc47684f697fb6f64f0_7b38a9b8
    157908ceec74        cfe-etcd:2.8.7                                            "/bin/sh -c 'umask 06"   2 days ago          Up 2 days                               k8s_etcd-container.d8d1f291_etcd-server-10.184.42.132_om_36b5d9f798751abad8dc291a4bf46865_6de02f29
    6d774ac2ac2e        cfe-etcd:2.8.7                                            "/bin/sh -c 'umask 06"   2 days ago          Up 2 days                               k8s_etcd-container.d6f90091_etcd-event-server-10.184.42.132_om_9f4b2d62d846556015bb495930f7fa4f_6a546c2e
    3f3546f93b65        paas-cfe-pause-bootstrap                                  "/pause"                 2 days ago          Up 2 days                               k8s_POD.6d5cdc5e_etcd-network-server-10.184.42.132_om_f49345c84316bbc47684f697fb6f64f0_11931fbb
    b577e0f5e45a        paas-cfe-pause-bootstrap                                  "/pause"                 2 days ago          Up 2 days                               k8s_POD.6d5cdc5e_etcd-event-server-10.184.42.132_om_9f4b2d62d846556015bb495930f7fa4f_561795ae
    e26634d14881        paas-cfe-pause-bootstrap                                  "/pause"                 2 days ago          Up 2 days                               k8s_POD.6d5cdc5e_etcd-server-10.184.42.132_om_36b5d9f798751abad8dc291a4bf46865_5cbb2d73

    本例中etcd-event对应的容器ID为6d774ac2ac2e

    sudo docker exec -it 6d774ac2ac2e bash

  3. 查询etcd集群各节点IP和端口。

    说明:

    默认情况下,4001为etcd集群的client port,4002为etcd-event的client port,4003为etcd-network的client port。

    ETCDCTL_API=3 /start-etcd --cacert /srv/kubernetes/ca.cer --cert /srv/kubernetes/server.cer --key /srv/kubernetes/server_key.pem --endpoints https://127.0.0.1:4002 member list

    回显信息如下:

    1f4397f9956e1e8b, started, infra1, https://10.184.43.79:2381, https://10.184.43.79:4002
    9a3dd24ebfc5c212, started, infra2, https://10.177.119.155:2381, https://10.177.119.155:4002
    fc4a4cd2cf50cbf1, started, infra0, https://10.184.42.132:2381, https://10.184.42.132:4002

    记录集群各节点IP和对应的端口,本例中为https://10.184.43.79:4002、https://10.177.119.155:4002、https://10.184.42.132:4002

  4. 查询etcd集群的状态。

    说明:

    默认情况下,4001为etcd集群的client port,4002为etcd-event的client port,4003为etcd-network的client port。

    ETCDCTL_API=3 /start-etcd --cacert /srv/kubernetes/ca.cer --cert /srv/kubernetes/server.cer --key /srv/kubernetes/server_key.pem --endpoints https://10.184.42.132:4002,https://10.184.43.79:4002,https://10.177.119.155:4002 endpoint status

    回显信息如下:

    2017-08-18 20:14:32.663688 I | warning: ignoring ServerName for user-provided CA for backwards compatibility is deprecated
    Failed to get the status of endpoint https://10.177.119.155:4002 (context deadline exceeded)
    https://10.184.42.132:4002, fc4a4cd2cf50cbf1, 3.1.9, 8.2 MB, false, 17, 2617441
    https://10.184.43.79:4002, 1f4397f9956e1e8b, 3.1.9, 8.4 MB, true, 17, 2617441

    其中,https://10.177.119.155:4002状态异常,记录步骤 3中显示的节点ID,本例中为9a3dd24ebfc5c212

异常处理

以故障节点OM-Core03为例,进行异常处理。

  1. 使用PuTTY,登录om_core3_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  2. 将manifest文件移除。

    说明:

    恢复etcd和etcd-network时,命令中对应的变量参数分别为:etcd、etcd-network。

    cd /var/paas/kubernetes/manifests/

    mv etcd-event.manifest ..

  3. 使用PuTTY,登录om_core1_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  4. 进入etcd-event对应的容器。

    说明:

    恢复etcd和etcd-network时,命令中对应的变量参数分别为:etcd、etcd-network。

    容器ID通过步骤 2获取到。

    sudo docker exec -it 6d774ac2ac2e bash

  5. 替换被破坏的磁盘。

    执行恢复操作前,请自行替换被破坏的磁盘,且务必确保替换后的磁盘规格和原先被损坏的磁盘规格一致。假设,被损坏的磁盘大小为50G,则新磁盘大小必须也为50G。

  6. 将无法查询到状态的节点删除。

    说明:

    默认情况下,4001为etcd集群的client port,4002为etcd-event的client port,4003为etcd-network的client port。

    删除的节点ID通过步骤 4查询得到。

    ETCDCTL_API=3 /start-etcd --cacert /srv/kubernetes/ca.cer --cert /srv/kubernetes/server.cer --key /srv/kubernetes/server_key.pem --endpoints https://10.184.42.132:4002,https://10.184.43.79:4002,https://10.177.119.155:4002 member remove 9a3dd24ebfc5c212

    回显信息如下:

    2017-08-18 20:20:08.659346 I | warning: ignoring ServerName for user-provided CA for backwards compatibility is deprecated
    Member 9a3dd24ebfc5c212 removed from cluster b2d484e5f23f7a6e

  7. 使用PuTTY,登录om_core3_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  8. 将etcd-event.manifest文件移入。

    cd /var/paas/kubernetes/manifests/

    mv ../etcd-event.manifest .

  9. 使用PuTTY,登录om_core1_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  10. 查询etcd集群的各节点状态。

    说明:

    默认情况下,4001为etcd集群的client port,4002为etcd-event的client port,4003为etcd-network的client port。

    ETCDCTL_API=3 /start-etcd --cacert /srv/kubernetes/ca.cer --cert /srv/kubernetes/server.cer --key /srv/kubernetes/server_key.pem --endpoints https://10.184.42.132:4002,https://10.184.43.79:4002,https://10.177.119.155:4002 endpoint status

    直至回显如下所示,代表故障节点etcd恢复正常:

    2017-08-18 20:24:14.201480 I | warning: ignoring ServerName for user-provided CA for backwards compatibility is deprecated
    https://10.184.42.132:4002, fc4a4cd2cf50cbf1, 3.1.9, 8.2 MB, false, 17, 2623883
    https://10.184.43.79:4002, 1f4397f9956e1e8b, 3.1.9, 8.4 MB, true, 17, 2623883
    https://10.177.119.155:4002, 5f95cab8bc69abd6, 3.1.9, 8.4 MB, false, 17, 2623883

  11. 按照上述步骤继续恢复etcd集群和etcd-network集群的故障节点。
翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:18102

下载量:438

平均得分:
本文档适用于这些产品
相关文档
相关版本
Share
上一页 下一页