所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
节点类故障

节点类故障

主机操作系统故障

现象描述

当主机操作系统故障时,需要为主机重装操作系统并重建主机上的虚拟机。主机操作系统故障的场景包括:

  • 当两个及以上主机系统故障时,会导致主机登录相关业务瘫痪。
  • 执行cps host-show <host_id>,发现主机状态为“fault”。
可能原因

主机硬盘故障。

处理步骤

级联场景下操作

  1. 在FusionSphere OpenStack安装部署界面,选择“运维 > 扩容”,将“自动PXE单板”设置为开启状态。
  2. 如果是级联层的主机故障,需先执行以下操作:

    1. 使用“PuTTY”,通过External OM平面IP地址登录级联层任意主机。
      帐号:fsp,默认密码:Huawei@CLOUD8。
      说明:
      • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
      • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
        • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
        • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。
    2. 执行以下命令切换到“root”用户。

      su - root

      “root”用户的默认密码为“Huawei@CLOUD8!”。

    1. 执行TMOUT=0防止会话超时退出。
    2. 导入环境变量

  3. 如果是网络节点故障(网络节点指级联层的vrouter节点、nat-server节点,需要先关闭网络节点的绑定CPU内核)。

    1. 使用PuTTY登录网络节点所在的级联层或被级联层FusionSphere OpenStack,切换到root用户,并导入环境变量。
    2. 针对不同网络节点,执行不同命令关闭网络节点的绑定CPU内核:
      • 如果故障主机为vrouter节点,顺序执行以下步骤:
        1. 执行以下命令,关闭vrouter节点的绑定CPU内核。

          cps template-ext-params-update --parameter vrouter01.DATA_PLANE.enable_auto_irq=False --service neutron neutron-vrouter01

        2. 执行以下命令,提交修改。

          cps commit

      • 如果故障主机为nat-server节点,顺序执行以下步骤:
        1. 执行以下命令,关闭nat-server节点的绑定CPU内核。

          cps template-ext-params-update --parameter neutron_l3_nat_agent01.DEFAULT.enable_auto_irq=False --service neutron neutron-l3-nat-agent01

        2. 执行以下命令,提交修改。

          cps commit

  4. 手动启动故障主机,在启动过程中选择从网络启动,重装主机操作系统。

    可使用服务器BMC系统的远程控制功能,或使用键盘显示器直连服务器,在服务器启动过程中手动选择启动方式为网络启动。

    主机重新安装耗时约为10~15分钟。

    说明:

    如果重新安装后磁盘的盘符发生了变化,从而导致安装失败(操作系统已安装成功,但服务不能正常恢复),可能是由于以下原因引起,需要参考如何处理盘符变化处理。

    • 对主机的RAID进行过调整,包括:重组RAID组、重新创建RAID组、删除RAID组。
    • 用户对FusionSphere OpenStack的系统磁盘或磁盘分区做过调整,包括:扩容磁盘、扩容分区等。
    • 主机挂载了MongoDB使用的SSD卡,必须通过如何处理盘符变化进行处理。

    如果主机之前并未经历上述调整,仍出现安装失败的现象,请联系技术支持工程师协助解决

    重装主机操作系统后,操作系统帐户(root、fsp)密码会重置为默认密码。

  5. 使用“PuTTY”,通过External OM平面IP地址登录故障恢复的主机。

    帐号:fsp,默认密码:Huawei@CLOUD8

    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  6. 导入环境变量
  7. 执行以下命令,查看故障恢复节点的mongodb组件状态是否为fault。

    cps template-instance-list --service mongodb mongodb

  8. 控制节点目前采用FusionStorage融合场景,MongoDB拉远的方式,存储没恢复之前MongoDB没法恢复,进度也不能达到100%,这里需要先恢复存储.如果故障的KVM主机已经对接了FusionStorage Block,请参考《FusionStorage V100R006C20 产品文档》服务器操作系统故障章节进行存储的恢复。
  9. 在FusionSphere OpenStack的安装部署界面,选择“配置 > 磁盘”,选择故障的主机节点,查看是否存在"配置失败,单击主机状态查看详情"的提示。

  10. 提交后等待5分钟执行以下命令,查看mongodb组件是否恢复正常。

    cps template-instance-list --service mongodb mongodb

    • 是,执行步骤 12
    • 否,请联系技术支持工程师协助解决

  11. 在FusionSphere OpenStack的安装部署界面的“概要”界面查看主机的安装进度,确认主机是否安装完成。

    当故障主机所在行的“进度”显示100%时,表示主机启动成功。

    说明:

    如果重装操作系统的主机是安装FusionSphere OpenStack时的首节点,则需要在“运维 > 扩容”页面查看该主机的安装状态(此阶段“概要”页面一直显示主机为故障状态)。安装至70%以后,才会在“概要”页面的原故障主机上正常显示安装进度。

    • 是,执行步骤 12
    • 否,请联系技术支持工程师协助解决

  12. 如果正在处理的是网络节点(网络节点指级联层的vrouter节点、nat-server节点),在完成安装后需要再次开启网络节点的绑定CPU内核。

    1. 使用PuTTY登录网络节点所在的级联层或被级联层FusionSphere OpenStack,切换到root用户,并导入环境变量。
    2. 针对不同网络节点,执行不同命令开启网络节点的绑定CPU内核:
      • 如果故障主机为vrouter节点,使用下面两条命令:

        cps template-ext-params-update --parameter vrouter01.DATA_PLANE.enable_auto_irq=True --service neutron neutron-vrouter01

        cps commit

      • 如果故障主机为nat-server节点,使用下面两条命令:

        cps template-ext-params-update --parameter neutron_l3_nat_agent01.DEFAULT.enable_auto_irq=True --service neutron neutron-l3-nat-agent01

        cps commit

  13. 选择新安装的主机,单击“重启”。

    说明:

    主机安装成功后,会自动同步系统的配置信息,部分高级配置需重启主机才能生效(例如内核配置等)。

    为保证所有配置均能正常生效,请安装主机成功后将主机重启一遍。

  14. 使用“PuTTY”,通过External OM平面IP地址登录AZ内控制节点主机。

    帐号:fsp,默认密码:Huawei@CLOUD8。
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  15. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  16. 执行TMOUT=0防止会话超时退出。
  17. 具体操作请参见导入环境变量
  18. 执行如下命令查询故障主机上部署的虚拟机信息。

    1. 执行如下命令,采用安全方式操作。

      runsafe

      显示如下信息:

      Input command:
    2. 执行如下命令查询故障主机上部署的虚拟机信息。

      nova list --all-t --host <host_id>

      • 存在虚拟机,且虚拟机中有用户的业务虚拟机,执行步骤 19
      • 仅存在管理节点虚拟机,包括VRM虚拟机、FSM虚拟机、Service OM等虚拟机,执行步骤 27

  19. 执行以下步骤对业务虚拟机进行重建。

    1. 参考异地重建虚拟机对其他业务虚拟机进行重建。
    2. 是否还有其他业务虚拟机未完成迁移。
      • 是,另选一个虚拟机,执行步骤19.a
      • 否,执行步骤步骤 27

  20. 如果恢复的节点部署了云服务虚拟机的控制节点,则需要对非(FusionCompute VRM 、Service OM 、FSM)云服务虚拟机进行恢复操作。执行步骤 21~步骤 26
  21. 使用“PuTTY”,通过External OM平面IP地址登录故障恢复的主机。

    帐号:fsp,默认密码:Huawei@CLOUD8。

  22. 导入环境变量
  23. 执行以下命令,获取主机ID“uuid”。

    cat /etc/uuid

  24. 执行以下命令,查看主机上的虚拟机是否为ERROR状态。

    nova list --host uuid

  25. 对非本地盘管理虚拟机(FusionCompute VRM 、Service OM 、FSM)外所有的虚拟机执行以下命令,做停止、启动操作。此处“uuid”为虚拟机ID。

    nova stop uuid

    nova start uuid

  26. 执行以下命令,查看主机上的虚拟机是否都为ACTIVE状态。

    nova list --host uuid

    • 是,执行步骤步骤 27
    • 否,请联系技术支持工程师协助解决

  27. 如果故障主机中存在VRM虚拟机,请参见《FusionSphere V100R006C10SPC600 产品文档 (服务器虚拟化,FusionCompute V100R006C10SPH105)》的“单个VRM虚拟机操作系统故障”进行处理。
  28. 如果故障主机上部署了FSM虚拟机,则参考《FusionStorage V100R006C20 产品文档》故障与告警 > 故障处理相关章节,恢复FSM虚拟机。
  29. 如果故障主机上部署了Service OM虚拟机,参考主备部署时单个Service OM虚拟机故障重建故障的Service OM虚拟机。
  30. 在Service OM界面,选择“服务列表 > Service OM >集中运维 > 告警 > 告警列表”,查看是否有关于重新安装主机的告警。

  31. 在告警所在行的“操作”列单击“清除”,选中需要清除的告警,并单击页面左上方的“清除”。
  32. 登录FusionSphere OpenStack的安装部署界面。

    具体操作请参见登录FusionSphere OpenStack安装部署界面(ManageOne方式)

  33. 在FusionSphere OpenStack安装部署首页,选择“配置 > 磁盘”,查看故障主机所在管理组是否使用远端存储。

  34. 使用PuTTY,通过External OM平面反向代理IP地址登录控制节点主机。

    默认帐号:fsp,默认密码:Huawei@CLOUD8。

  35. 执行以下命令,获取故障主机哈希ID。

    python -c 'print(hash("hostid"))'

    hostid为故障主机ID,回显信息即故障主机哈希ID。

  36. 执行以下命令,获取单板上重新对接的远端LUN的wwn号列表:

    cat /etc/huawei/fusionsphere/osConfig.storage/cfg/osConfig.storage.cfg.effect | python -mjson.tool | grep lun_wwn

    回显举例如下:

     "lun_wwn": "6487b6b1004bc09524031c1e0000003d"

  37. 登录DeviceManager,在“资源分配>主机”中按名称搜索主机哈希ID,逐个查看每个LUN,如果WWN号不在步骤 36获取的wwn号列表中,则属于待清理LUN,记录下来,在DeviceManager管理界面将这些LUN从对应LUN组移除后删除LUN,具体操作请参见OceanStor对应型号的产品文档。

非级联场景下的操作

  1. 在FusionSphere OpenStack安装部署界面,选择“运维 > 扩容”,将“自动PXE单板”设置为开启状态。
  2. 手动启动故障主机,在启动过程中选择从网络启动,重装主机操作系统。

    可使用服务器BMC系统的远程控制功能,或使用键盘显示器直连服务器,在服务器启动过程中手动选择启动方式为网络启动。

    主机重新安装耗时约为10~15分钟。

    说明:

    如果重新安装后磁盘的盘符发生了变化,从而导致安装失败(操作系统已安装成功,但服务不能正常恢复),可能是由于以下原因引起,需要参考如何处理盘符变化处理。

    • 对主机的RAID进行过调整,包括:重组RAID组、重新创建RAID组、删除RAID组。
    • 用户对FusionSphere OpenStack的系统磁盘或磁盘分区做过调整,包括:扩容磁盘、扩容分区等。
    • 主机挂载了MongoDB使用的SSD卡,必须通过如何处理盘符变化进行处理。

    如果主机之前并未经历上述调整,仍出现安装失败的现象,请联系技术支持工程师协助解决

    重装主机操作系统后,操作系统帐户(root、fsp)密码会重置为默认密码。

  3. 使用“PuTTY”,通过External OM平面IP地址登录故障恢复的主机。

    帐号:fsp,默认密码:Huawei@CLOUD8

    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  4. 执行以下命令切换到root用户。

    su - root

    root用户默认密码为“Huawei@CLOUD8!”。

  5. 执行TMOUT=0防止会话超时退出。
  6. 导入环境变量
  7. 执行以下命令,查看故障恢复节点的mongodb组件状态是否为fault。

    cps template-instance-list --service mongodb mongodb

  8. 控制节点目前采用FusionStorage融合场景,MongoDB拉远的方式,存储没恢复之前MongoDB没法恢复,进度也不能达到100%,这里需要先恢复存储.如果故障的KVM主机已经对接了FusionStorage Block,请参考《FusionStorage V100R006C20 产品文档》服务器操作系统故障章节进行存储的恢复。
  9. Type II场景需要重新对接AC,请参考《Agile Controller-DCN V300R003C00 产品文档》的“手动配置”章节,依次执行该章节的步骤7-步骤9,步骤13,进行配置。
  10. 在FusionSphere OpenStack的安装部署界面,选择“配置 > 磁盘”,选择故障的主机节点,查看是否存在"配置失败,单击主机状态查看详情"的提示。

  11. 提交后等待5分钟执行以下命令,查看mongodb组件是否恢复正常。

    cps template-instance-list --service mongodb mongodb

    • 是,执行步骤 13
    • 否,请联系技术支持工程师协助解决

  12. 在FusionSphere OpenStack的安装部署界面的“概要”界面查看主机的安装进度,确认主机是否安装完成。

    当故障主机所在行的“进度”显示100%时,表示主机启动成功。

    说明:

    如果重装操作系统的主机是安装FusionSphere OpenStack时的首节点,则需要在“运维 > 扩容”页面查看该主机的安装状态(此阶段“概要”页面一直显示主机为故障状态)。安装至70%以后,才会在“概要”页面的原故障主机上正常显示安装进度。

    • 是,执行步骤 13
    • 否,请联系技术支持工程师协助解决

  13. 选择新安装的主机,单击“重启”。

    说明:

    主机安装成功后,会自动同步系统的配置信息,部分高级配置需重启主机才能生效(例如内核配置等)。

    为保证所有配置均能正常生效,请安装主机成功后将主机重启一遍。

  14. 使用“PuTTY”,通过External OM平面IP地址登录AZ内控制节点主机。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  15. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  16. 执行TMOUT=0防止会话超时退出。
  17. 导入环境变量
  18. 对接硬SDN场景,对故障恢复的节点AC进行重新对接。
  19. 执行如下命令查询故障主机上部署的虚拟机信息。

    1. 执行如下命令,采用安全方式操作。

      runsafe

      显示如下信息:

      Input command:
    2. 执行如下命令查询故障主机上部署的虚拟机信息。

      nova list --all-t --host <host_id>

      • 存在虚拟机,且虚拟机中有用户的业务虚拟机,执行步骤 20
      • 仅存在管理节点虚拟机,包括VRM虚拟机、FSM虚拟机、FService OM等虚拟机,执行步骤 28
      • 不存在虚拟机,执行步骤 31

  20. 执行以下步骤对业务虚拟机进行重建。

    1. 执行runsafe命令进入安全模式,按照提示输入命令,查询任意一个虚拟机详细信息。

      nova show <vm_id>

      其中,“vm_id”为步骤 19查询到的虚拟机中,用户的业务虚拟机的ID。

      回显信息中“os-extended-volumes:volumes_attached”字段为虚拟机使用的卷信息。

      显示如下信息,表明是从镜像启动的:

      | os-extended-volumes:volumes_attached | []                                                |

      显示如下信息时,需要再执行cinder show volumes_id

      | os-extended-volumes:volumes_attached | [{"id": "a596caae-a79c-4d61-9abe-db17f01fb7c0"}]  |

      其中,“volumes_id”为回显信息“os-extended-volumes:volumes_attached”字段对应的“id”。如果有多个id,则对每个id都需要执行cinder show volumes_id

      所有回显信息中的“bootable”字段若都为“false”,表明从镜像启动。否则,表明从卷启动。

      回显信息类似如下:

      | bootable| false  |
      • 从卷启动,执行20.b
      • 从镜像启动,执行20.c
    2. 参照异地重建虚拟机,在其他主机上重建虚拟机。

      完成后,跳转到20.e

    3. 执行runsafe命令进入安全模式,按照提示输入命令,重建业务虚拟机。

      nova rebuild <vm_id> <image_id>

    4. 执行runsafe命令进入安全模式,按照提示输入命令,查询虚拟机重建是否成功。

      nova show <vm_id>

      查询回显信息中,“status”状态。

      • 状态为“REBUILD”:虚拟机正在重建中,等待1分钟后重新查询。
      • 状态为“ACTIVE”:虚拟机恢复正常,执行20.e
      • 其他:恢复失败,请联系技术支持工程师协助解决
    5. 是否还有其他业务虚拟机未完成重建。
      • 是,另选一个虚拟机,执行20.a
      • 否,执行步骤 28

  21. 如果恢复的节点部署了云服务虚拟机的控制节点,则需要对非(FusionCompute VRM 、Service OM 、FSM)的云服务虚拟机进行恢复操作。执行步骤 22~步骤 27
  22. 使用“PuTTY”,通过External OM平面IP地址登录故障恢复的主机。

    帐号:fsp,默认密码:Huawei@CLOUD8。

    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  23. 导入环境变量
  24. 执行以下命令,获取主机ID“uuid”。

    cat /etc/uuid

  25. 执行以下命令,查看主机上的虚拟机是否为ERROR状态。

    nova list --host uuid

  26. 对非本地盘管理虚拟机(FusionCompute VRM 、FusionSphere OpenStack OM 、FSM)执行以下命令,做停止、启动操作。此处“uuid”为虚拟机ID。

    nova stop uuid

    nova start uuid

  27. 执行以下命令,查看主机上的虚拟机是否都为ACTIVE状态。

    nova list --host uuid

    • 是,执行步骤步骤 26
    • 否,请联系技术支持工程师协助解决

  28. 如果故障主机中存在VRM虚拟机,参考《FusionSphere 产品文档 (服务器虚拟化,FusionCompute V100R006C10SPH105)》中“单个VRM虚拟机操作系统故障”章节进行恢复VRM虚拟机。
  29. 如果故障主机上部署了FSM虚拟机,则参考《FusionStorage V100R006C20 产品文档》中故障处理相关章节,恢复FSM虚拟机。
  30. 如果故障主机上部署了Service OM虚拟机,参考主备部署时单个Service OM虚拟机故障重建故障的Service OM虚拟机。
  31. 如果故障的KVM主机已经对接了FusionStorage Block,请参考《FusionStorage Block V100R006C20 产品文档》服务操作系统故障章节进行存储的恢复。

    说明:

    如果部署的角色为“blockstorage-driver”、“blockstorage-driver-vrmxxx”或“blockstorage-driver-kvmxxx”(其中,“xxx”包括001、002等),请参考“安装灾备服务 > 安装与初始配置(云服务器备份服务) > 安装与配置OceanStor BCManager eBackup > 对接FusionSphere OpenStack”章节的操作步骤1,安装eBackup driver。

  32. 在Service OM界面,选择“服务列表 > Service OM >集中运维 > 告警 > 告警列表”,查看是否有关于重新安装主机的告警。

    • 是,执行步骤 33
    • 否,处理完毕。

  33. 在告警所在行的“操作”列单击“清除”,选中需要清除的告警,并单击页面左上方的“清除”。
  34. 登录FusionSphere OpenStack的安装部署界面。

    具体操作请参见登录FusionSphere OpenStack安装部署界面(ManageOne方式)

  35. 在FusionSphere OpenStack安装部署首页,选择“配置 > 磁盘”,查看故障主机所在管理组是否使用远端存储。

  36. 使用PuTTY,通过External OM平面反向代理IP地址登录控制节点主机。

    默认帐号:fsp,默认密码:Huawei@CLOUD8。

  37. 执行以下命令,获取故障主机哈希ID。

    python -c 'print(hash("hostid"))'

    hostid为故障主机ID,回显信息即故障主机哈希ID。

  38. 执行以下命令,获取单板上重新对接的远端LUN的wwn号列表:

    cat /etc/huawei/fusionsphere/osConfig.storage/cfg/osConfig.storage.cfg.effect | python -mjson.tool | grep lun_wwn

    回显举例如下:

     "lun_wwn": "6487b6b1004bc09524031c1e0000003d"

  39. 登录DeviceManager,在“资源分配>主机”中按名称搜索主机哈希ID,逐个查看每个LUN,如果WWN号不在步骤 38获取的wwn号列表中,则属于待清理LUN,记录下来,在DeviceManager管理界面将这些LUN从对应LUN组移除后删除LUN,具体操作请参见OceanStor对应型号的产品文档。

恢复MongoDB独立部署SSD盘故障导致的节点故障

本章节仅针对ceilometer-data的硬盘故障的单点故障场景。

问题现象

MongoDB独立部署在SSD盘中的MongoDB节点上,mongodb状态为“fault”,并且该节点上对应的/var/ceilometer目录挂载在独立的SSD磁盘上,系统启动失败。

可能原因

MongoDB独立部署的SSD盘故障,导致系统配置磁盘失败,系统启动失败。

处理步骤

确认故障

  1. 通过BMC IP登录故障的MongoDB主机远程控制台。
  2. 执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。

    su - root

  3. 执行以下命令,防止系统超时退出。

    TMOUT=0

  4. 执行如下命令,查看MongoDB是否硬盘故障。

    lvs
    • 若回显结果中未包含ceilometer-data的lv,则确认为此故障,请按照本章节恢复故障。
    • 若是其他故障,请联系技术支持工程师协助解决
    说明:

    “lv”为logical volume逻辑卷。

故障恢复

  1. 在已登录的故障的MongoDB节点,执行以下命令创建临时的mongoDB的lv。

    lvcreate -L 5g cpsVG -n ceilometer-data

  2. 执行以下命令格式化lv。

    mkfs.ext3 -K -E resize=16380g /dev/cpsVG/ceilometer-data

    lv为logical volume逻辑卷。

  3. 备份磁盘配置文件。

    cp -a /opt/fusionplatform/data/fusionsphere/osConfig.storage/cfg/osConfig.storage.cfg.effect /opt/fusionplatform/data/fusionsphere/osConfig.storage/cfg/osConfig.storage.cfg.effect.bak

  4. 修改并保存磁盘配置文件中的mongoDB配置。

    使用VI编辑器打开配置文件

    vim /opt/fusionplatform/data/fusionsphere/osConfig.storage/cfg/osConfig.storage.cfg.effect

    修改其中logical-volume下字典中name为ceilometer-data的size和vg。

    { 
                "backendtype": "local", 
                "format": "ext3", 
                "io-error-policy": "continue", 
                "name": "ceilometer-data", 
                "path": "/var/ceilometer", 
                "role": "mongodb", 
                "size": "5g", 
                "vg": "cpsVG" 
            }     

  5. 重复多次执行如下命令,观察python /usr/local/bin/cps-client/cps_client/cpsclient.py进程ID, 若3分钟内均未发生变化,则说明系统启动正常。

    ps -ef |grep cps-client

    说明:

    本章节仅紧急修复MongoDB磁盘故障导致的系统启动异常,启动后MongoDB的磁盘故障导致的服务异常,仍需要进行部件更换以及mongoDB故障恢复。

计算节点磁盘分区故障恢复

现象描述
  • 租户启动虚拟机故障。
  • 备数据库升主异常处理失败。
可能原因

image分区只读或文件系统损坏、数据异常,导致虚拟机无法正常启动。

处理步骤
  1. 使用“PuTTY”,通过External OM平面IP地址登录故障主机。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

    执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  2. 执行TMOUT=0防止会话超时退出。
  3. 导入环境变量
  1. 执行以下命令,查看分区是否为只读。

    cat /proc/mounts | grep -w "ro," | grep /dev/mapper/cpsVG-image

    若显示“ro”则表示分区为只读状态。
    • 是,继续执行步骤 5
    • 否,请联系技术支持工程师协助解决

  2. 执行以下命令,卸载只读分区。

    umount /dev/mapper/cpsVG-image

    若卸载失败并回显如图7-1所示,说明该分区有程序正在使用,请联系技术支持工程师协助解决

    图7-1 回显信息

  3. 执行以下命令,修复文件系统。

    fsck.ext3 /dev/mapper/cpsVG-image

    说明:

    若分区使用ext3以外的其他文件系统类型,使用fsck的其他文件系统修复命令,如ext2文件系统使用fsck.ext2。

    执行完命令后,如果回显信息中没有报错等失败信息,则表示修复成功。

    • 自动修复成功,继续执行步骤 7
    • 自动修复失败,系统分区损坏,请联系技术支持工程师协助解决
      说明:

      如果修复失败,还可以使用fsck -y /dev/mapper/cpsVG-image强制修复文件系统,但是有可能会修复错误,导致丢失或损坏数据。

  4. 执行以下命令挂载分区。

    mount /dev/mapper/cpsVG-image /opt/HUAWEI/image

    /opt/HUAWEI/image为分区挂载的目录,用户可以根据实际情况指定。

单个被级联层控制节点虚拟机故障(Region Type I)

现象描述

虚拟机无法启动进入操作系统,并且无法通过其他手段恢复。

可能原因
  • 操作系统故障。
  • 虚拟机文件损坏或资源异常。
处理步骤
说明:

本操作仅适用于被级联层三个控制节点虚拟机,只故障一个的场景。

  1. 登录级联层任一控制节点,执行以下命令,找到对应被级联层的internal base平面网络下的子网。

    neutron net-list | grep cascaded_internal_base

  2. 执行以下命令,检查dhcp是否开启,true表示开启,false表示关闭。

    neutron subnet-show subnet_id | grep dhcp

    说明:

    其中,subnet_id是步骤 1中查询到的子网id。

    • 是,执行3
    • 否,执行4

  3. 执行以下命令,关闭dhcp。

    neutron subnet-update --disable-dhcp subnet_id

    说明:

    其中,subnet_id是步骤 1中查询到的子网id。

  4. 在已登录的被级联层安装部署界面,选择“运维> 扩容”,进入扩容页面,关闭“自动PXE单板”功能。
  5. 在已登录的级联层安装部署界面,选择“云化部署> 环境管理”,进入环境管理列表。选择被级联层虚拟化部署环境名称,进入并查看类型为“CascadedVM”的组件名称。

  6. 使用“PuTTY”,通过External OM平面IP地址登录级联层FusionSphere OpenStack首节点。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索Cascading-ExternalOM-Reverse-Proxy获取。

  7. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  8. 执行TMOUT=0防止会话超时退出。
  9. 具体操作请参见导入环境变量
  10. 执行以下命令,依次查询步骤 5中的三个被级联层控制节点虚拟机的状态,记录故障虚拟机的ID。

    nova list |grep cascadedvm

    其中,cascadedvm是步骤 5中查询到的组件名称。

    步骤 5中查询到的组件名称cascadedvm003为例,命令举例如下:

    nova list |grep cascadedvm003

  11. 执行以下命令,根据步骤 10中查询到的故障虚拟机ID,查询故障虚拟机的flavor名称。

    nova show cascadedvm_id |grep flavor

    其中,cascadevm_id是步骤 10中查询到的虚拟机故障的ID。

    步骤 10中查询到的故障虚拟机的ID是dd7d75af-c446-49bf-be0e-f3fe8fa3b356为例,命令举例如下:

    nova show dd7d75af-c446-49bf-be0e-f3fe8fa3b356 |grep flavor

  12. 执行以下命令,根据步骤 10中查询到的故障虚拟机ID,查询故障虚拟机所在主机的UUID。

    nova show cascadedvm_id |grep hypervisor_hostname

    其中,cascadedvm_id是步骤 10中查询到的故障虚拟机的ID。

    步骤 10中查询到的故障虚拟机的ID是dd7d75af-c446-49bf-be0e-f3fe8fa3b356为例,命令举例如下:

    nova show dd7d75af-c446-49bf-be0e-f3fe8fa3b356 |grep hypervisor_hostname

  13. 执行以下命令,根据步骤 10中查询到的故障虚拟机ID,查询故障虚拟机是否有数据卷盘。

    cinder list |grep cascadedvm_id

    其中,cascadevm_id是步骤 10中查询到的虚拟机故障的ID。

    步骤 10中查询到的故障虚拟机的ID是dd7d75af-c446-49bf-be0e-f3fe8fa3b356为例,命令举例如下:

    cinder list |grep dd7d75af-c446-49bf-be0e-f3fe8fa3b356

    若回显如图7-2,则故障虚拟机只有启动卷盘,表明虚拟机是直通SSD盘场景。

    图7-2 场景1回显信息

    若回显如图7-3,则故障虚拟机有启动卷盘和数据卷盘,记录该数据卷盘大小。

    图7-3 场景2回显信息

  14. 在被级联层虚拟化部署环境中,删除故障虚拟机对应的组件,单击“部署这个环境”。

  15. 待部署成功后,在级联层FusionSphere OpenStack安装部署界面的“环境部署”页面,重新创建一个Cascaded VM实例,其中主机ID填写步骤 12查询得到的UUID。

    说明:

    新创建的被级联层控制节点虚拟机的规格和配置需要与故障虚拟机保持一致。

    1. 将应用程序组件中的“Cascaded VM”拖到“请拖动组件到这里”虚线框里,创建Cascaded VM实例。

    2. 配置Cascaded VM实例。

      • Name虚拟机实例名称,要保证唯一性。必须以大写或者小写字母开头。名称中只能包含大小写字母(a-z,A-Z),数字(0-9),连接线(-)和下划线(_)。
      • Nova Availability Zone虚拟机需要部署的域,设置为manage-az。
      • Cinder Availability Zone虚拟机所创建卷的域,设置为manage-az。
      • Boot volume size (G)虚拟机系统启动卷大小,设置为300GB。
      • Data volume size (G)虚拟机系统数据卷大小,如果步骤 13中查询到的故障虚拟机是直通SSD盘场景,则填空;如果步骤 13中查询到的故障虚拟机有挂载数据卷盘,则填写原有数据卷盘的大小。
      • Host虚拟机需要部署的主机ID,即一个虚拟机对应级联层的一个控制节点。可通过级联层FusionSphere OpenStack安装部署界面的概要页面查询主机ID,或者通过“cps host-list”查询。建议选择级联层的控制节点。
      • Image镜像名,选择cascaded_image。
      • Flavor虚拟机规格,选择cascaded_vm相关的规格。选择步骤 11中查询到的原有故障虚拟机的flavor名称。
      • Volume Backend NameKVM资源池的后端存储配置名称。可通过级联层FusionSphere OpenStack安装部署界面的“资源池管理 > 配置存储集群”页面查询后端存储配置名称。

      • Delay Deploy Time (minute)是否需要延时部署,默认情况下为0。当级联层和被级联层共用一个window执行机时,此window首先作为级联层的PXE执行机,此时需要临时把级联层的window执行机划到被级联层的网络平面用于被级联层的PXE安装。这时需要配置该延时时间,被级联层window执行机需要在该时间内完成PXE服务器的启动。
    3. 选择Cascaded VM使用的网络。

      说明:

      其中“Cascaded provision (optional)”“Cascaded BMC Base (optional)”网络平面为裸机场景下网络平面,KVM场景下默认即可。

    4. 部署Cascaded VM实例。

      创建好Cascaded VM实例后,单击“部署这个环境”,待对应状态栏变成“Ready”后,表明Cascaded VM实例部署成功。

  16. 在已登录的级联层PuTTY界面,执行以下命令,查看并记录新创建虚拟机的MAC地址。

    neutron port-list|grep cascadedvm_new

    其中,cascadedvm_new为步骤 15中新创建的虚拟机实例名称。

    步骤 15中新创建的虚拟机实例名称为cascadedvm004为例,命令举例如下:

    neutron port-list|grep cascadedvm004

  17. 使用“PuTTY”,通过External OM平面IP地址登录被级联层FusionSphere OpenStack首节点。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索Cascading-ExternalOM-Reverse-Proxy获取。

  18. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  19. 执行TMOUT=0防止会话超时退出。
  20. 导入环境变量
  21. 在已登录的被级联层FusionSphere OpenStack安装部署界面,单击“概要”,查看故障控制节点对应的ID。
  22. 执行以下命令,配置故障节点主机ID与新主机的MAC地址的对应关系。

    cps hostid-mac-add --mac 新主机的MAC地址 --hostid 原主机ID

    cps commit

    其中原主机ID指步骤 21中获取的故障控制节点对应的ID,新主机的MAC地址指步骤 16中查询到的新创建虚拟机的MAC地址。

    图7-4 回显信息

    图7-4所示,如果回显为:hostid already defined!,则执行以下命令替换。

    cps hostid-mac-update --mac 新主机的MAC地址 --hostid 原主机ID

    cps commit

    执行以下命令,查询确认配置的故障主机ID与新主机的MAC地址是否正确。

    cps hostid-mac-list

  23. 在已登录的被级联层安装部署界面,选择“运维 > 扩容”,进入扩容页面,有一条等待PXE的主机记录,根据步骤 16查询到的MAC地址确认后,单击按钮。

  24. 单击“概要”,查看故障主机的安装进度。如果该故障主机上有部署blockstorage角色,当安装进度为96%时,安装会暂停,此时请参考《FusionStorage V100R006C20 产品文档》服务器操作系统故障章节依次执行使用命令行方式为服务器安装FSA组件恢复存储资源操作。
  25. 在已登录的被级联层安装部署界面,选择“运维> 扩容”,进入扩容页面,关闭“自动PXE单板”功能。

NAT网关业务下发故障(Region Type I)

现象描述

ManageOne运营面无法下发新的NAT网关业务。

可能原因

NAT网关数据面是主备部署,当NAT网关主节点上控制组件neutron-nat-data-agent出现异常状态变为fault时,会导致NAT网关数据面无法接收新的业务。

定位思路

查找状态为fault的neutron-nat-gw-data-agent组件所在的节点是否为NAT网关主节点。

  • 是,执行本章节操作。
  • 否,请联系技术支持工程师协助解决
处理步骤
  1. 使用PuTTY,通过External OM平面IP地址登录AZ内任意一台主机。

    默认帐号:fsp,默认密码:Huawei@CLOUD8。
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索Cascading-ExternalOM-Reverse-Proxy获取。

  2. 执行以下命令切换到root用户。

    su - root

    root用户默认密码为“Huawei@CLOUD8!”。

  3. 执行TMOUT=0防止会话超时退出。
  4. 导入环境变量。

    具体操作请参见导入环境变量

  5. 执行以下命令,查找状态为fault的neutron-nat-gw-data-agent组件所在的节点。

    cps template-instance-list --service nat-gateway neutron-nat-gw-data-agent

    +----------------+---------------------------+--------+--------------------------------------+-------------+
    | instanceid     | componenttype             | status | runsonhost                           | omip        |
    +----------------+---------------------------+--------+--------------------------------------+-------------+
    | agt_0000000001 | neutron-nat-gw-data-agent | active | 53034D15-B603-084B-82D6-AAB15E9F3503 | 4.20.43.169 |
    | agt_0000000000 | neutron-nat-gw-data-agent | fault  | 45EBDB95-711D-7640-8B5C-EE3D98561285| 4.20.43.158|
    +----------------+---------------------------+--------+--------------------------------------+-------------+

  6. 使用PuTTY,通过步骤 5查询的IP地址登录NAT网关节点。

    默认帐号:fsp,默认密码:Huawei@CLOUD8。

    说明:

    系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点

  7. 执行以下命令切换到root用户。

    su - root

    root用户默认密码为“Huawei@CLOUD8!”。

  8. 执行TMOUT=0防止会话超时退出。
  9. 导入环境变量。

    具体操作请参见导入环境变量

  10. 执行以下命令,根据回显信息判断是否为NAT网关主节点。查看status是否为MASTER。

    /usr/sbin/ugw_shell vrrp show all

    ===============================================
    vrrpid   enable   status    ha-link   
    -----------------------------------------------
    1        yes      MASTER     eth0.2038      
    ===============================================
    • 是,执行步骤 11
    • 否,请联系技术支持工程师协助解决

  11. 执行以下命令,手动进行主备倒换。

    cps host-template-instance-operate --service nat-gateway neutron-nat-gw-dataplane --action stop --host hostid

    +--------------------------+--------------------------------------+--------+---------+
    | template                 | runsonhost                           | action | result  |
    +--------------------------+--------------------------------------+--------+---------+
    | neutron-nat-gw-dataplane | 45EBDB95-711D-7640-8B5C-EE3D98561285 | stop   | success |
    +--------------------------+--------------------------------------+--------+---------+

    cps host-template-instance-operate --service nat-gateway neutron-nat-gw-dataplane --action start --host hostid

    +--------------------------+--------------------------------------+--------+---------+
    | template                 | runsonhost                           | action | result  |
    +--------------------------+--------------------------------------+--------+---------+
    | neutron-nat-gw-dataplane | 45EBDB95-711D-7640-8B5C-EE3D98561285 | start  | success |
    +--------------------------+--------------------------------------+--------+---------+

    hostid为步骤 5查询的主机ID,回显success表示主备倒换成功。

AZ内误接入主机的处理方法

现象描述

AZ内主机在未下电的情况下接入网络系统且后续未重新安装,可能导致主机误接入。为避免不必要告警,需要及时删除误接入的主机。主机误接入现象如图7-5所示。

图7-5 AZ内误接入主机
处理步骤
  1. 使用PuTTY登录本AZ内任意主机。

    以fsp用户,通过External OM平面IP地址登录。

    主机的External OM平面IP地址可以在FusionSphere OpenStack安装部署界面的“概要”页面中查看。

    系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证,具体操作请参见使用PuTTY通过公私钥对认证方式登录节点

  2. 执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。

    su - root

  3. 执行以下命令,防止系统超时退出。

    TMOUT=0

  4. 导入环境变量
  5. 执行以下命令查询主机列表。

    cps host-list

  6. 通过反向代理IP地址登录FusionSphere OpenStack安装部署界面,在“概要”页面查询主机列表。
  7. 对比后台和前台查询到主机列表的区别。

    如果后台查询结果中有状态为“fault”的主机,且前台查询结果中无此主机,说明该主机是误接入的主机,记录该主机的“hostid”。

    说明:

    若存在多个IP地址相同的主机满足此条件,需根据hostid区分该主机是管理员正常安装但由于其他原因导致了主机故障,还是误接入。

  8. 执行以下命令,查询有关该主机的规则列表“hostcfg”的信息。

    cps hostcfg-list

    查询结果如下图所示:
    +---------------+----------------+-----------------------------------------------------------+
    | type          | name           | hosts                                                     |
    +---------------+----------------+-----------------------------------------------------------+
    | site          | default        | hostid:                                                   |
    |               |                |                                                           |
    | storage       | default        | default:all                                               |
    |               |                |                                                           |
    | storage       | default_sdi    | capability:{boardtype: SDI}                               |
    |               |                |                                                           |
    | storage       | control_group0 | hostid:564D0074-B2AA-B928-B748-B32F52C5B8B5               |
    |               |                |                                                           |
    | storage       | control_group1 | hostid:564D159D-F177-F8B6-32DC-D7E034FF0182               |
    |               |                |                                                           |
    | storage       | control_group2 | hostid:564D4412-43F7-893F-1220-2D8F9D09B788               |
    |               |                |                                                           |
    | kernel        | default        | default:all                                               |
    |               |                |                                                           |
    | kernel        | default_sdi    | capability:{boardtype: SDI}                               |
    |               |                |                                                           |
    | network       | default        | default:all                                               |
    |               |                |                                                           |
    | resgrp-define | server         | capability:{role: sys-server}                             |
    |               |                |                                                           |
    | resgrp-define | default        | default:all                                               |
    |               |                |                                                           |
    | resgrp-define | default_sdi    | capability:{boardtype: SDI}                               |
    |               |                |                                                           |
    | resgrp-define | control_group1 | hostid:564D0074-B2AA-B928-B748-B32F52C5B8B5, 564D4412-43F |
    |               |                | 7-893F-1220-2D8F9D09B788, 564D159D-F177-F8B6-32DC-        |
    |               |                | D7E034FF0182                                              |
    |               |                |                                                           |
    +---------------+----------------+-----------------------------------------------------------+

  9. 执行如下命令,在hostcfg规则列表中删除误接入主机的信息。

    cps hostcfg-host-delete --host hostid=hostid --type type name

    “hostid”为误接入主机ID。

    “type”和“name”为hostcfg规则列表中误接入的主机对应字段的值

  10. 执行如下命令,查询有关该主机的role的名称。

    cps host-role-list hostid

  11. 执行如下命令,删除该主机的role。

    cps role-host-delete --host hostid role_name

    "hostid"步骤 7中记录的“hostid”,"role_name"步骤 10中查询到的role名称。

  12. 执行如下命令,删除误接的主机。

    cps host-delete --host hostid

    cps commit

虚拟机卸载系统磁盘后发生故障的恢复方法

现象描述

卸载虚拟机的系统磁盘后,虚拟机出现故障,此时无法完成新的系统磁盘的挂载。

可能原因
  • 主机下电或主机故障
  • 虚拟机状态异常
处理步骤
  1. 使用“PuTTY”,通过External OM平面IP地址登录FusionSphere OpenStack。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  2. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  3. 执行TMOUT=0防止会话超时退出。
  4. 导入环境变量
  5. 执行以下命令查询故障虚拟机所在的主机。

    nova show 故障虚拟机ID | grep host

    其中,故障虚拟机的ID可以从FusionSphere OpenStack管理控制台中查询。

    记录回显结果中OS-EXT-SRV-ATTR:host的值,即故障虚拟机所在主机的ID。

  6. 执行以下命令查看主机状态是否正常。

    cps host-list | grep 主机ID

    其中主机ID为故障虚拟机所在主机的ID。

    回显信息中显示“normal”表示主机状态正常。

    • 主机状态正常,执行步骤 9
    • 主机状态异常,执行步骤 7

      如果主机状态异常,需要记录该主机的内部管理IP地址。

  7. 使用以下方式尝试恢复主机:

    1. 先执行su - fsp切换到“fsp”用户,通过命令ssh fsp@主机IP地址登录主机,并切换到root用户。

      按照提示输入系统私钥密码,默认私钥密码是“Huawei@CLOUD8!”。如果已生成并替换了新的公私钥文件,请输入新私钥密码。或者直接按“Enter”后按照提示输入fsp用户的密码登录。

    2. 通过reboot命令重启该主机。

      如果主机故障导致主机网络无法连通,则请使用主机BMC系统等方式对主机重启。

      可通过步骤 6的方法查看主机状态,10分钟内,主机状态变为“normal”表示主机恢复成功。

  8. 主机是否可以恢复。

    • 是,执行步骤 9
    • 否,执行步骤 13,通过重建虚拟机方式恢复虚拟机。
    说明:

    使用该方法会导致虚拟机的ID、网络信息等发生变化,如果虚拟机使用本地磁盘,则磁盘信息也会丢失。

  9. 执行以下命令查看虚拟机的状态。

    nova show 故障虚拟机ID | grep status

  10. 执行以下命令停止虚拟机。

    nova stop 故障虚拟机ID

  11. 参考步骤 9再次查看虚拟机状态。

    • 状态为“SHUTOFF”,执行步骤 12
    • 其他状态,请联系技术支持工程师协助解决

  12. 为虚拟机挂载新的系统磁盘。

    • 挂载成功,任务结束。
    • 挂载失败,请联系技术支持工程师协助解决

  13. 执行以下命令查看并记录虚拟机的详细状态。

    nova show 故障虚拟机ID

    需记录虚拟机的各项属性值,如表7-1所示。

    表7-1 虚拟机属性值说明

    属性

    说明

    取值样例

    os-extended-volumes:volumes_attached

    虚拟机挂载的磁盘的ID,可能有多个

    8458dbff-1acd-4445-a3ea-751b6c4a8d80

    tenant_id

    虚拟机所在的租户ID

    bca6f4e8b2034d3eb93e7c94e897d619

    user_id

    创建虚拟机的用户ID

    3cf46a44f05642149c1c9273913429cc

    config_drive

    文件注入是否使用congfig drive盘

    空或者True

    flavor

    虚拟机所用的规格

    m1.tiny (1)

    metadata

    是否指定metadata

    {}

    name

    虚拟机名称

    Test01

    security_groups

    安全组信息

    default

    tags

    Tag信息

    []

  14. 根据查询到的租户ID,导入环境变量。

    export tenant_id=tenant_id

  15. 使用vi编辑器,新建文件,命名为“d.json”,写入如下内容:

    { 
        "auth": { 
            "identity": { 
                "methods": [ 
                    "password" 
                ], 
                "password": { 
                    "user": { 
                        "domain": { 
                            "name": "vdc_name" 
                        }, 
                        "name": "username", 
                        "password": "password" 
                    } 
                } 
            }, 
            "scope": { 
                "project": { 
                    "domain": { 
                        "name": "vdc_name" 
                    }, 
                    "name": "vpc_name" 
                } 
            } 
        } 
    }     

    其中:

    • “username”:使用默认管理员cloud_admin帐户登录FusionSphere OpenStack管理控制台,在“系统 > 用户管理”中,查看ID列,找到与虚拟机user_id一致的用户信息,此处填写该用户的用户名。
    • “password”:该username对应用户的访问密码。
    • “vdc_name”:联系管理员,在具体使用的业务发放工具中,查看虚拟机的username是否属于某个VDC。如果是,则填写为该VDC的名称;如果不属于任何VDC,则填写为“Default”。
    • “vpc_name”:联系管理员,在具体使用的业务发放工具中,依次查看各VPC的ID,找到与虚拟机tenant_id一致的VPC,此处填写该VPC名称。如果未找到tenant_id对应的VPC,则在已登录的FusionSphere OpenStack系统中,执行命令openstack project list | grep tenant_id查询,回显信息中,第二个字段即为要填写的vpc_name。
    说明:

    如果无法查询到具体的username、vdc_name、以及vpc_name,请联系技术支持工程师协助解决

  16. 执行以下命令导入Token环境变量。

    export TOKEN=$(curl -ki -d @d.json -H "Content-type: application/json" https://identity.localdomain.com:8023/identity/v3/auth/tokens | awk '/X-Subject-Token/ {print $2}' | tr -d '\r')

    说明:

    为保证用户帐户信息安全,请在此步骤后,删除步骤 15创建的json文件。

  17. 执行以下命令查看虚拟机的网络信息,并记录虚拟机所用网络的ID。

    nova interface-list 虚拟机ID

    显示类似如下信息:

     
    +------------+--------------------------------------+--------------------------------------+--------------+-------------------+  
    | Port State | Port ID                              | Net ID                               | IP addresses | MAC Addr          |  
    +------------+--------------------------------------+--------------------------------------+--------------+-------------------+  
    | ACTIVE     | 60b5961f-8afb-4735-9f3c-368d414857d2 | 04c20a58-b01f-4d18-b3e9-6c49ce78a22c | 192.168.211.6| fa:16:3e:56:d3:71 |  
    +------------+--------------------------------------+--------------------------------------+--------------+-------------------+

    虚拟机可能使用了多个网络,需记录所有网络ID。

  18. 在原虚拟机所用到的网络中创建新的port,并记录port的ID。

    curl -i --insecure -X POST https://network.localdomain.com:8020/v2.0/ports.json -H "User-Agent: python-neutronclient" -H "Content-Type: application/json" -H "Accept: application/json" -H "X-Auth-Token: $TOKEN" -d '{"port":{"network_id": "Net_ID", "tenant_id": "'tenant_id'", "binding:vnic_type": "vNIC_type", "name": "port_name", "admin_state_up": true}}'

    其中,vNIC_type根据网络类型(硬直通,EVS或者OVS),硬直通为direct,EVS和OVS均为normal。

    例如:

    curl -i --insecure -X POST https://network.localdomain.com:8020/v2.0/ports.json -H "User-Agent: python-neutronclient" -H "Content-Type: application/json" -H "Accept: application/json" -H "X-Auth-Token: $TOKEN" -d '{"port": {"network_id": "04c20a58-b01f-4d18-b3e9-6c49ce78a22c", "tenant_id": "'$tenant_id'", "binding:vnic_type": "normal", "name": "lt-test", "admin_state_up": true}}'

    记录生成的port的ID,例如“3f7ebd45-9a96-474c-88e6-5e3bf6e018cc”。

  19. 执行以下命令为原虚拟机的磁盘做快照,并记录快照ID。

    curl -i --insecure -X POST https://volume.localdomain.com:8776/v2/${tenant_id}/snapshots -H "User-Agent: python-cinderclient" -H "Content-Type: application/json" -H "Accept: application/json" -H "X-Auth-Token: $TOKEN" -d '{"snapshot": {"description": description, "metadata": {metadata}, "force": "True", "name": "snapshot_name", "volume_id": "volume_id"}}'

    例如:

    curl -i --insecure -X POST https://volume.localdomain.com:8776/v2/${tenant_id}/snapshots -H "User-Agent: python-cinderclient" -H "Content-Type: application/json" -H "Accept: application/json" -H "X-Auth-Token: $TOKEN" -d '{"snapshot": {"description": null, "metadata": {}, "force": "True", "name": "data_snap01", "volume_id": "8458dbff-1acd-4445-a3ea-751b6c4a8d80"}}'

    记录生成的快照ID,例如“1e5b7681-faa1-4de0-9d80-ee3e2a606eeb”。

    执行以下命令直到快照的“status”变成“available”,表示快照创建成功。

    cinder snapshot-show 快照ID

    如果虚拟机有多个磁盘,则需要对多个磁盘依次做快照。

  20. 执行以下命令,使用创建出的磁盘快照创建新的磁盘。

    curl -i --insecure -X POST https://volume.localdomain.com:8776/v2/${tenant_id}/volumes -H "User-Agent: python-cinderclient" -H "Content-Type: application/json" -H "Accept: application/json" -H "X-Auth-Token: $TOKEN" -d '{"volume": {"name": "new_volume_name", "availability_zone": AZname,"metadata": {metadata},"snapshot_id": "snapshot_id"}}'

    其中,AZname表示磁盘的AZ信息,可以通过cinder show 磁盘ID命令查询原虚拟机的磁盘AZ,新的磁盘AZ与之保持一致。

    例如:

    curl -i --insecure -X POST https://volume.localdomain.com:8776/v2/${tenant_id}/volumes -H "User-Agent: python-cinderclient" -H "Content-Type: application/json" -H "Accept: application/json" -H "X-Auth-Token: $TOKEN" -d '{"volume": {"name": "data01_volume", "availability_zone": null,"metadata": {},"snapshot_id": "1e5b7681-faa1-4de0-9d80-ee3e2a606eeb"}}'

    记录生成的新的磁盘的ID,例如“2ffa5677-0a13-4ea6-bcdc-1575b40780a8”。

    如果有多个磁盘快照,需要依次生成新的磁盘。

  21. 在业务发放系统中创建新的虚拟机。

    要求虚拟机的磁盘为云磁盘,并且虚拟机的相关属性以及使用的网络需要与原故障虚拟机一致。

    如果无法通过业务发放系统创建,可使用如下命令:

    curl -i --insecure 'https://compute.localdomain.com:8001/v2/'$tenant_id'/os-volumes_boot' -X POST -H "Accept: application/json" -H "Content-Type: application/json" -H "User-Agent: python-novaclient" -H "X-Auth-Token: $TOKEN" -d '"server": {"name": "vm_name", "imageRef": "", "block_device_mapping_v2": [{"source_type": "source_type", "destination_type": "destination_type", "boot_index": "boot_index", "uuid": "source_id", "volume_size": "volume_size"}], "flavorRef": "flavorRef", "max_count": max_count, "min_count": min_count, "networks": [{"port": "port_id"}], "config_drive": false}}'

    例如:

    curl -i --insecure 'https://compute.localdomain.com:8001/v2/'$tenant_id'/os-volumes_boot' -X POST -H "Accept: application/json" -H "Content-Type: application/json" -H "User-Agent: python-novaclient" -H "X-Auth-Token: $TOKEN" -d '"server": {"name": "new_vm_02", "imageRef": "", "block_device_mapping_v2": [{"source_type": "image", "destination_type": "volume", "boot_index": "0", "uuid": "5f6a4b1d-1815-4c33-9c50-710fac909cc0", "volume_size": "1"}], "flavorRef": "1", "max_count": 1, "min_count": 1, "networks": [{"port": "3f7ebd45-9a96-474c-88e6-5e3bf6e018cc"}], "config_drive": false}}'

    创建虚拟机后,会返回虚拟机的ID,需记录该ID。执行如下命令直到虚拟机的“vm_state”变成“active”,表示虚拟机创建成功。

    nova show 虚拟机ID

  22. 在业务发放系统中,将步骤 20创建的磁盘挂载到新的虚拟机上。

    如果无法通过业务发放系统创建,可使用如下方式:

    1. 导入虚拟机ID的环境变量。

      export uuid=vm_id

    2. 执行以下命令为虚拟机挂载磁盘。

      curl -i --insecure "https://compute.localdomain.com:8001/v2/$TENANT_ID/servers/${uuid}/os-volume_attachments" -X POST -H "X-Auth-Project-Id: service" -H "X-Auth-Token: $TOKEN_ID" -H "Content-Type: application/json" -H "Accept: application/json" -H "User-Agent: python-novaclient" -d '{"volumeAttachment": {"volumeId": "volumeId"}}'

      例如:

      curl -i --insecure "https://compute.localdomain.com:8001/v2/$TENANT_ID/servers/${uuid}/os-volume_attachments" -X POST -H "X-Auth-Project-Id: service" -H "X-Auth-Token: $TOKEN_ID" -H "Content-Type: application/json" -H "Accept: application/json" -H "User-Agent: python-novaclient" -d '{"volumeAttachment": {"volumeId": "3f28cb04-c9f9-4ae4-b350-6dd6da80f41d"}}'

  23. 新创建的虚拟机业务功能正常后,可删除原故障虚拟机。

    原故障虚拟机的磁盘,以及重建磁盘时制作的磁盘快照,请评估不再使用后,也可做删除处理。

单个被级联层控制节点虚拟机操作系统故障恢复(Region Type I)

当被级联层虚拟机操作系统故障时,需要为该虚拟机重新安装操作系统。

现象描述

执行命令“cps host-show host_id”,发现主机状态为“fault”。

前提条件
  • 已获取被级联层控制节点故障主机ID。本章节以“55c6f891-ae56-4cd5-b348-287d3a433ffc”为例。
  • 已登录级联层、被级联层安装部署界面。
处理步骤
  1. 在已登录的级联层安装部署界面,单击“云化部署”,进入“环境管理”界面。

  2. 单击被级联层虚拟化部署环境名称,进入并查看类型为“CascadedVM”的组件名称。

  3. 使用“PuTTY”,通过External OM平面的反向代理ip地址登级联层FusionSphere OpenStack首节点。

    帐号:fsp,默认密码:“Huawei@CLOUD8”。

    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索Cascading-ExternalOM-Reverse-Proxy获取。

  4. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  5. 执行TMOUT=0防止会话超时退出。
  6. 导入环境变量。

    具体操作请参见导入环境变量

  7. 执行如下命令,查询被级联层控制节点故障虚拟机的ID。

    nova list |grep cascaded_vm

    “cascaded_vm”为步骤 2中查询到的组件名称。

    以组件名称“cascade_vm_az1_dc1_0”为例:

    nova list |grep cascade_vm_az1_dc1_0

    说明:

    “55c6f891-ae56-4cd5-b348-287d3a433ffc”为被级联层控制节点故障虚拟机的ID。

  8. 执行如下命令,获取被级联层控制节点故障虚拟机的vnc url地址。

    nova get-vnc-console 55c6f891-ae56-4cd5-b348-287d3a433ffc novnc

    +-------+-----------------------------------------------------------------------------------------------------------------------+
    | Type  | Url                                                                                                                   |
    +-------+-----------------------------------------------------------------------------------------------------------------------+
    | novnc | https://nova-novncproxy.az1.dc1.domainname.com:8002/vnc_auto.html?token=559e04af-8036-4649-9cd2-04941ac64ba2&lang=EN  |
    +-------+-----------------------------------------------------------------------------------------------------------------------+

    55c6f891-ae56-4cd5-b348-287d3a433ffc”为步骤 7中查询到的被级联层控制节点故障虚拟机的ID。

  9. 将回显信息中“Url”中的“nova-novncproxy.az1.dc1.domainname.com”替换成OpenStack环境的反向代理IP地址。例:“https://192.168.55.21:8002/vnc_auto.html?token=559e04af-8036-4649-9cd2-04941ac64ba2&lang=EN”。
  10. 使用替换后的Url在任意浏览器中登录故障虚拟机。
  11. 执行如下命令,修改故障虚拟机的启动顺序,以pxe方式启动。

    nova meta 55c6f891-ae56-4cd5-b348-287d3a433ffc set __bootDev=network,hd

  12. 在已登录的被级联层安装部署界面,选择“运维 > 扩容”,进入扩容页面,开启“自动PXE单板”功能。
  13. 执行如下命令,重启故障虚拟机。

    nova reboot 55c6f891-ae56-4cd5-b348-287d3a433ffc

  14. 使用步骤 8中查询故障主机所在的虚拟机的vnc url地址,登录故障虚拟机。
  15. 查看VNC界面,当出现下面界面时,则PXE成功。

    若pxe失败,请联系技术支持工程师协助解决

  16. 执行如下命令,修改虚拟机的启动顺序,以卷方式启动故障虚拟机。

    nova meta 55c6f891-ae56-4cd5-b348-287d3a433ffc set __bootDev=hd,network

  17. 待故障主机状态恢复正常,重新推送zabbix、eSight等各种agent到恢复的被级联层控制节点虚拟机。
翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:18271

下载量:438

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页