所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
etcd数据破坏导致重启处理方法

etcd数据破坏导致重启处理方法

现象描述

  • 出现如下日志,导致ETCD不断重启。
    2018-05-15 16:00:45.985584 C | etcdmain: database file (/var/etcd-data/etcd-event/etcd-event-2/member/snap/db index 16737187) does not match with snapshot (index 21909430).
  • 或者出现类似如下panic日志,由bbolt引发,导致ETCD不断重启。
    panic: xxx
    xxx/github.com/coreos/bbolt/xxx

可能原因

etcd 数据被破坏。

处理方法

  1. 使用PuTTY,登录om_paas_vip节点。

    默认帐号:paas,默认密码:QAZ2wsx@123!

  2. 执行以下命令获取租户管理域etcd pod非Running 状态的节点,选取异常的pod名。

    kubectl get pods -n manage -owide | grep etcd | grep -v "elb\|cse\|flow\|backup"

    系统回显类似如下信息。

     etcd-event-0                     1/1       error     0          37d       10.186.53.125    manage-cluster2-fff303d2-xv98d
     etcd-event-1                     1/1       Running   0          37d       10.120.173.182   manage-cluster1-fff303d2-tzz7z
     etcd-event-2                     1/1       Running   0          37d       10.120.173.65    manage-cluster1-fff303d2-9swgx
    说明:

    manage代表租户管理域的命名空间,获取运维管理域etcd异常节点信息时需要替换为om,例如:

    kubectl get pods -n om -owide | grep etcd | grep -v "elb\|cse\|flow\|backup"

  3. 执行如下命令,获取etcd pod非Running 状态的节点IP。加粗内容为etcd容器所在节点IP。

    kubectl get node manage-cluster2-fff303d2-xv98d -n manage -oyaml | grep addr

    系统回显类似如下信息。

      address: 10.186.53.125

  4. 登录非Running状态的etcd pod节点,通常日志所在目录如下。

    /var/paas/sys/log/etcd-event/

    说明:

    etcd-event是异常pod名称,也可能是etcd或etcd-network。

  5. 执行以下命令,查看该目录下的运行日志etcd-event.log中 CRITICAL 级别的日志

    vi /var/paas/sys/log/etcd-event/etcd-event.log

    系统回显类似如下信息。
    2018-05-15 16:00:45.985584 C | etcdmain: database file (/var/etcd-data/etcd-event/etcd-event-2/member/snap/db index 16737187) does not match with snapshot (index 21909430).

    或者回显如下类似信息。

    panic: xxx
    xxx/github.com/coreos/bbolt/xxx

    日志显示该节点中的etcd数据被破坏。

  6. 日志中显示的路径是 etcd 容器中的路径,执行以下命令,找到对应在宿主机(ETCD容器所在节点)上的路径。

    cd /var/paas/run/etcd-event

    ls

    系统回显类似如下信息。

    config.ini  etcd-event-2

  7. 执行以下命令,修改异常数据目录的名称。

    cd /var/paas/run/etcd-event

    mv etcd-event-2 etcd-event-2-old

    说明:

    etcd-event-2是步骤 6中异常etcd节点下的数据目录。

  8. 等待etcd重启(kubelet会重新将 etcd 启动),执行如下命令查看 etcd 的运行日志。

    vi /var/paas/sys/log/etcd/etcd-event.log

    发现已经没有该条 CRITICAL 日志,说明etcd同步数据完成。

  9. 执行以下命令,查看etcd数据目录,发现重新生了数据目录。

    /var/paas/run/etcd-event/etcd-event-2

    此时如果etcd正常运行并且没有crash,说明故障恢复。

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:19258

下载量:447

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页