所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
多个ETCD pod状态异常

多个ETCD pod状态异常

异常现象

现象说明

查询etcd pod,检查pod状态,出现异常。

异常确认
  • 查询运维管理域etcd pod状态。

    使用PuTTY,登录om_core1_ip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

    执行如下命令:

    kubectl get pod -nmanage|grep etcd

    etcd-events-server-paas-10-109-173-143        1/1       err   0          22h 
    etcd-events-server-paas-10-109-173-244        1/1       err   1          22h 
    etcd-events-server-paas-10-109-173-62         1/1       Running   3          23h 
    etcd-server-paas-10-109-173-143               1/1       Running   0          22h 
    etcd-server-paas-10-109-173-244               1/1       Running   1          22h 
    etcd-server-paas-10-109-173-62                1/1       Running   3          23h 
    network-etcd-server-paas-10-109-173-143       1/1       Running   0          23h 
    network-etcd-server-paas-10-109-173-244       0/1       Running   1          22h 
    network-etcd-server-paas-10-109-173-62        0/1       Running   0          23h
    说明:
    • 上述回显信息所显示的异常状态,只显示了pod的一些异常状态。若出现这些状态,则说明pod出现了异常。
    • 若出现同一集群中两个或以上pod异常则说明发生了多个etcd pod异常,如上述回显。
  • 查询租户管理域etcd pod状态。

    执行如下命令。

    kubectl get pod -n manage|grep etcd|grep -v cse

    etcd-0           4/4       CrashBackoff   50          2h 
    etcd-1           4/4       ErrImaagePull   55          2h 
    etcd-2           4/4       Running   52          2h
    说明:
    • 上述回显信息所显示的异常状态,只显示了pod的一些异常状态。若出现这些状态,则说明pod出现了异常。
    • 若出现同一集群中两个或以上pod异常则说明发生了多个etcd pod异常,如上述回显。

异常处理

前提条件

已将paas用户加入白名单,请参考如何解决sudo命令不能使用的问题

操作步骤
  • 租户管理域etcd异常处理
    1. 使用PuTTY,登录om_core1_ip节点。

      默认帐号:paas,默认密码:QAZ2wsx@123!

    2. 执行如下命令查询出etcd-0所在节点。

      kubectl get pod etcd-0 -nmanage -oyaml | grep hostIP

      说明:

      etcd-0为异常现象中查询的异常pod名。

    3. 使用PuTTY,以paas用户登录到etcd-0所在节点。
    4. 根据以下步骤逐一定位etcd故障的原因,并进行解决。
      • 容器网络原因导致etcd故障。
        1. 执行如下命令登录至etcd-0容器。

          sudo docker ps |grep etcd-0

          0a1c9946060f        10.184.42.33:20202/root/cfe-etcd:2.2.4                   "/bin/sh -c 'umask 06"   3 minutes ago       Up 3 minutes                            k8s_etcd.902abe6d_etcd-0_manage_4072c181-888c-11e7-9423-286ed489be96_29e8d83b
          08131be7509a        10.184.42.33:20202/root/default/cfe-pause:2.8.7          "/pause"                 2 hours ago         Up 2 hours                              k8s_POD.2cdee072_etcd-0_manage_4072c181-888c-11e7-9423-286ed489be96_f5970a1f

          记录回显的容器ID,本例中容器ID为0a1c9946060f

          sudo docker exec -it 0a1c9946060f sh

        2. 执行如下命令进行检测网络,检测etcd-0、etcd-1、etcd-2之间的网络连接是否通畅。

          ping etcd-1.etcd.manage

          4.2$ ping etcd-1.etcd.manage
          PING etcd-1.etcd.manage.svc.cluster.local (10.184.41.116) 56(84) bytes of data.
          64 bytes from etcd-network-0.etcd-network.manage.svc.cluster.local (10.184.41.116): icmp_seq=1 ttl=63 time=1.53 ms
          64 bytes from etcd-network-0.etcd-network.manage.svc.cluster.local (10.184.41.116): icmp_seq=2 ttl=63 time=1.97 ms

          若未出现上述回显信息,则联系技术支持工程师解决容器网络问题。

        3. 退出容器。

          exit

      • 登录异常的etcd节点。
      • 磁盘空间导致的etcd异常。

        执行如下命令进行磁盘空间检测。

        cd /var/paas/run

        df -h . | grep 100%

        若有回显信息,则表示磁盘空间已满,请清理磁盘空间。

      • 磁盘io导致etcd集群异常。

        执行如下命令查询系统io状态。

        iostat -x 1

        Linux 3.12.49-11-default (SZV1000269249) ?04/23/17 ?_x86_64_?(16 CPU) 
          
         avg-cpu:  %user   %nice %system %iowait  %steal   %idle 
                    8.37    0.04   13.11    4.63    0.00   73.85 
          
         Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util 
         xvda              0.27    83.42    1.12   28.17    22.88   551.59    39.22     0.26    8.99    5.95    9.11   0.52   100
         xvde              0.75   219.17   12.87  355.79   276.25  8284.19    46.44     1.04    2.83    4.69    2.76   0.35   99
         dm-0              0.00     0.00    0.07    0.77     0.27     3.08     8.00     0.00    4.06    1.45    4.29   0.94   0.08 
         dm-1              0.00     0.00   11.79   15.72   265.92   251.92    37.64     0.25    8.91    5.05   11.80   0.46   1.25 
         dm-2              0.00     0.00   11.79   15.72   265.92   251.92    37.64     0.25    8.91    5.05   11.81   0.46   100
         xvdf              0.00   240.41    4.03  610.73   169.29  4264.36    14.42     1.71    2.78    4.61    2.76   0.97   100

        若%util列出现大量的100和99的数据,说明系统io被占满。请联系IaaS层面的技术支持进行系统层面的优化。

      • 若未出现以上问题,请参阅文档《备份恢复》 “(可选)租户管理域ETCD故障节点恢复”或“(可选)运维管理域ETCD故障节点恢复”进行恢复。
  • 运维管理域etcd异常处理
    1. 使用PuTTY,登录om_core1_ip节点。

      默认帐号:paas,默认密码:QAZ2wsx@123!

    2. 执行如下命令,查询etcd-events-server-paas-10-109-173-143所在节点。

      kubectl get pod etcd-events-server-paas-10-109-173-143 -nom -oyaml | grep hostIP

      说明:

      etcd-events-server-paas-10-109-173-143为异常pod名称。

      hostIP: 10.109.173.143
    3. paas用户登录到etcd-events-server-paas-10-109-173-143所在节点。
    4. 根据以下步骤逐一定位etcd-event故障的原因,并进行解决。
      • 容器网络原因导致etcd-event故障。
        1. 执行以下命令,查询etcd-event的容器ID。

          sudo docker ps |grep etcd-event

          63c330bf5eb8cfe-etcd:2.10.29 "/bin/sh -c 'umask 07" 10 hours ago Up 10 hours k8s_etcd-event-container.c757e6c4_etcd-even-server-10.120.244.156_fst-manage_427c78d484816d9042b227363cf68205_d9037bbc
          3dd0f4b89bb5 paas-cfe-pause-bootstrap "/pause" 10 hours ago Up 10 hours k8s_POD.6d5cdc5e_etcd-event-server-10.120.244.156_fst-manage_427c78d484816d9042b227363cf68205_64b94875

          记录回显的容器ID,本例中容器ID为63c330bf5eb8

        2. 执行以下命令,登录至etcd-event容器。

          sudo docker exec -it 63c330bf5eb8 sh

        3. 执行如下命令,检测etcd-events-server-paas-10-109-173-143、etcd-events-server-paas-10-109-173-244、etcd-events-server-paas-10-109-173-62之间的网络连接是否通畅。

          ping 10.109.173.244

          其中,10.109.173.244为etcd-events-server-paas-10-109-173-244所在节点IP,检测与etcd-events-server-paas-10-109-173-62之间的网络情况时请替换成etcd-events-server-paas-10-109-173-62所在节点的IP。

          PING 10.109.173.244(10.109.173.143) 56(84) bytes of data. 
          64 bytes from 10.109.173.143: icmp_seq=1 ttl=64 time=0.568 ms 
          64 bytes from 10.109.173.143: icmp_seq=2 ttl=64 time=0.454 ms 
          64 bytes from 10.109.173.143: icmp_seq=3 ttl=64 time=0.390 ms 
          64 bytes from 10.109.173.143: icmp_seq=4 ttl=64 time=0.403 ms 
          64 bytes from 10.109.173.143: icmp_seq=5 ttl=64 time=0.225 ms

          若未出现上述回显信息,请联系技术支持工程师解决容器网络问题。

        4. 执行以下命令,退出容器。

          exit

      • 磁盘空间导致的etcd-event异常。

        执行以下命令进行磁盘空间检测。

        cd /var/paas/run

        df -h . | grep 100%

        若有回显信息,则表示磁盘空间已满,请清理磁盘空间。

      • 磁盘io导致etcd-event集群异常。

        执行以下命令查询系统io状态。

        iostat -x 1

        Linux 3.12.49-11-default (SZV1000269249) ?04/23/17 ?_x86_64_?(16 CPU) 
          
         avg-cpu:  %user   %nice %system %iowait  %steal   %idle 
                    8.37    0.04   13.11    4.63    0.00   73.85 
          
         Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util 
         xvda              0.27    83.42    1.12   28.17    22.88   551.59    39.22     0.26    8.99    5.95    9.11   0.52   100
         xvde              0.75   219.17   12.87  355.79   276.25  8284.19    46.44     1.04    2.83    4.69    2.76   0.35    99
         dm-0              0.00     0.00    0.07    0.77     0.27     3.08     8.00     0.00    4.06    1.45    4.29   0.94   0.08 
         dm-1              0.00     0.00   11.79   15.72   265.92   251.92    37.64     0.25    8.91    5.05   11.80   0.46   1.25 
         dm-2              0.00     0.00   11.79   15.72   265.92   251.92    37.64     0.25    8.91    5.05   11.81   0.46   100
         xvdf              0.00   240.41    4.03  610.73   169.29  4264.36    14.42     1.71    2.78    4.61    2.76   0.97   100

        若%util列出现大量的100和99的数据,说明系统io被占满,请联系IaaS层面的技术支持进行系统层面的优化。

      • 若未出现以上问题,请参阅文档《备份恢复》 “(可选)租户管理域ETCD故障节点恢复”或“(可选)运维管理域ETCD故障节点恢复”进行恢复。
      说明:

      本章节举例处理一个etcd节点,若处理多个etcd节点请参照本章节进行处理。

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:18029

下载量:438

平均得分:
本文档适用于这些产品
相关文档
相关版本
Share
上一页 下一页