所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
管理节点故障

管理节点故障

主备Service OM虚拟机同时故障

操作场景

Service OM主备虚拟机同时故障,且重启该虚拟机后业务仍无法恢复时,需要参考本故障处理操作,使业务快速恢复正常。

说明:

恢复Service OM主备节点虚拟机前,必须先从备份路径下获取备份文件,并将备份文件拷贝至本地PC上。

具体路径参见《FusionCloud 6.3.1 备份恢复指南》中的“Service OM”章节。

对系统的影响
  • 无法新增业务,如创建虚拟机。
  • 无法对外提供监控告警、配置等运维服务。
操作步骤

检查主机image分区是否使用远端存储

主机image分区存在Service OM虚拟机,且image分区使用远端存储,存储中断或存储中断恢复后image挂载异常,导致Service OM虚拟机无法启动。

  1. 在FusionSphere OpenStack的安装部署界面上,选择“配置 > 磁盘”。
  2. 在“扩容存储”区域框中查看image磁盘分区是否使用远端存储。

  3. 查看Service OM虚拟机所在主机是否存“ALM-6026 主机光纤通道中断”的告警。

  4. 以root权限登录Service OM虚拟机所在主机。
  5. 执行以下命令,查看image分区是否存在。

    mount | grep '/opt/HUAWEI/image '

    显示如下回显信息,表示存在image分区。

    /dev/mapper/extend_vg-image on /opt/HUAWEI/image type ext3 (rw,relatime,errors=continue,user_xattr,acl,barrier=1,data=ordered)

  6. 执行以下命令,查看image分区是否为只读。

    mount | grep '/opt/HUAWEI/image '

    /dev/mapper/extend_vg-image on /opt/HUAWEI/image type ext3 (rw,relatime,errors=continue,user_xattr,acl,barrier=1,data=ordered)

    显示如下回显信息,表示image分区为只读。

    /dev/mapper/extend_vg-image on /opt/HUAWEI/image type ext3 (ro,relatime,errors=continue,user_xattr,acl,barrier=1,data=ordered)
    • 是,执行步骤 7
    • 否,请联系技术支持工程师协助解决

  7. 迁移主机上的业务虚拟机,并重启主机使image分区恢复正常。

    任务结束。

重置状态恢复虚拟机

  1. 使用PuTTY,通过External OM平面反向代理IP地址登录控制节点主机。

    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

    默认帐号:fsp,默认密码:Huawei@CLOUD8。

  2. 执行以下命令切换到root用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  3. 执行TMOUT=0防止会话超时退出。
  4. 导入环境变量
  5. 执行以下命令,将故障虚拟机状态设置为“error”。

    nova reset-state uuid

  6. 执行以下命令,关闭虚拟机,并观察虚拟机状态。

    nova stop uuid

    nova show uuid | grep OS-EXT-STS:vm_state

    其中的uuid为虚拟机uuid。

  7. 待虚拟机状态变为“stopped”时,执行以下命令,启动虚拟机,并观察虚拟机状态。

    nova start uuid

    nova show uuid | grep OS-EXT-STS:vm_state

  8. 虚拟机状态是否为“active”。

登录故障虚拟机
说明:

Region Type II场景下Service OM虚拟化部署在VMware上时,请在vSphere Client上通过虚拟机的控制台登录故障虚拟机。

  1. 登录FusionSphere OpenStack的安装部署界面。

    具体操作请参见登录FusionSphere OpenStack安装部署界面(ManageOne方式)

  2. 选择“云化服务 > FusionSphere OpenStack OM”。
  3. 在故障Service OM虚拟机的所在行,单击,登录虚拟机。

    以“galaxmanager”用户登录操作系统,默认密码为“IaaS@OS-CLOUD9!”。

  4. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“IaaS@OS-CLOUD8!”。

  5. 执行TMOUT=0防止会话超时退出。
  6. 登录是否成功。

    • 是,执行步骤 22
    • 否,登录的节点发生故障,执行步骤 38重新安装故障节点。

  7. 执行以下命令,查看目录“/opt/goku/data/db”的使用率是否超过98%。

    df -h

    Filesystem            Size  Used Avail Use% Mounted on 
    /dev/sda1             6.0G 1017M  4.7G  18% / 
                         ...
    /dev/sda13             36G  177M   34G   1% /opt/goku/data 
    /dev/sda11             15G  408M   14G   3% /opt/goku/data/db 
    /dev/sda2             7.9G  147M  7.4G   2% /sysback 
                         ...
    /dev/sda6             9.9G  239M  9.2G   3% /var/log/goku
    • 是,请联系技术支持工程师协助解决
    • 否,执行步骤 23

启动HA服务

  1. 执行以下命令,查看节点的HA状态。

    QueryHaState

    回显以下类似信息。

    LOCAL_HOST=FMN01 
    LOCAL_STATE=unknow 
    LOCAL_IP=192.168.0.79 
     
    REMOTE_HOST=FMN02 
    REMOTE_STATE=unknow 
    REMOTE_IP=192.168.0.80

  2. 判断回显中“LOCAL_STATE”的值是否为“unknow”。

  3. 执行以下命令,启动HA服务。

    startALL

  4. 是否提示心跳IP冲突。

    回显以下类似信息时,说明心跳IP冲突。

    The heartbeat IP address {IP地址} of the system conflicts with another IP address.

  5. 当前网络中是否有多套Service OM,且IP相同。

  6. 停止网络中其他的Service OM服务,或下电其他的Service OM节点。
  7. 按“Enter”,继续启动HA服务。
  8. 等待1分钟,执行以下命令,查询节点的HA状态。

    QueryHaState

  9. “LOCAL_STATE”的值是否仍为“unknow”。

    • 是,请联系技术支持工程师协助解决
    • 否,执行步骤 32

  10. 恢复Service OM备节点的HA服务。

    恢复的方法请参见步骤 16步骤 31

  11. 使用“PuTTY”,登录Service OM主节点。

    以“galaxmanager”用户,通过External API网络浮动IP地址登录。

    “galaxmanager”用户的默认密码为“IaaS@OS-CLOUD9!”。

    说明:
    Service OM节点管理IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
    • Region Type I场:Cascading-OM-externalOM-Float-IP。
    • Region Type II和Type III场景:OM-externalAPI-Float-IP。

  12. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“IaaS@OS-CLOUD8!”。

  13. 执行TMOUT=0防止会话超时退出。
  14. 等待10分钟,执行以下命令,查看Service OM的状态。

    galaxmanager status

  15. 状态是否都为“normal”。

    • 是,处理完毕。
    • 否,请联系技术支持工程师协助解决

删除主备Service OM虚拟机

  1. 通过“External API”网络登录FusionSphere OpenStack的安装部署界面。

    登录地址格式为https://FusionSphere OpenStack反向代理IP地址:8890,例如“https://192.168.211.90:8890”。

  2. 选择“云化服务 > FusionSphere OpenStack OM”。
  3. 在Service OM虚拟机所在区域,单击,按照提示删除Service OM虚拟机。

重新安装故障的Service OM节点

  1. 在FusionSphere OpenStack的安装部署界面上重新上传Service OM软件包,等待上传结束。
  2. 备份并替换FusionSphere OpenStack相关配置文件,具体操作可参考本故障处理的“相关任务”中替换FusionSphere OpenStack...小节内容。
  3. 安装故障的Service OM节点,具体操作请参见《FusionCloud 6.3.1 备份恢复指南》 中的“安装与维护服务适配包”章节

    说明:
    • 重新安装的Service OM版本必须与故障前保持一致,如不一致,请重新安装或者升级到相同版本后再进行数据恢复
    • Region Type II场景下,Service OM虚拟化部署在VMware上时,请参见“Service OM”章节,完成Service OM安装,包括Keystone和告警的对接。
    • Region Type I场景下,在使用cloud-init的场景下,若计划将Service OM虚拟机重新部署在被级联层的计算节点,还需要做如下配置:
      1. 选择一个计算节点,并查询它的cluster信息。

        cps cluster-list

        查询获得的控制节点的cluster名称为manage_cluster,计算节点(假设为host1)所在的cluster假设为compute_cluster。若计算节点未加入任何cluster,则无需执行43.b,直接执行43.c

      2. 将这个计算节点从旧cluster移除。

        cps cluster-update --name compute_cluster host1

      3. 将这个计算节点加入管理集群。

        cps cluster-update --name manage_cluster host1

        cps commit

        计算节点加入管理集群后,该计算节点的虚拟机将无法使用cloud-init功能。

  4. 配置Service OM和FusionSphere OpenStack的对接,具体操作请参见配置资源对接。
恢复故障的Service OM节点数据
说明:

Region Type II场景下,Service OM虚拟化部署在VMware上时,请参见《FusionCloud 6.3.1 备份恢复指南》恢复Service OM章节对数据进行恢复。

  1. 登录FusionSphere OpenStack安装部署界面,在“云化服务 > FusionSphere OpenStack OM”界面的虚拟机列表中查询主、备Service OM虚拟机External API网络的IP地址。
  2. 使用“WinSCP”工具,通过External API网络IP地址登录Service OM主、备节点虚拟机。

    以“galaxmanager”用户登录操作系统,默认密码为“IaaS@OS-CLOUD9!”。

  3. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“IaaS@OS-CLOUD8!”。

  4. 执行TMOUT=0防止会话超时退出。
  5. 拷贝备份文件至Service OM主、备节点虚拟机的如下路径之一。

    • 手动备份的文件,拷贝至“/opt/gmbackup/db/manualbk/”
    • 每日自动备份的文件,拷贝至“/opt/gmbackup/db/”
    • 每月自动备份的文件,拷贝至“/opt/gmbackup/db/autobakm/”

  6. VNC登录Service OM主、备节点虚拟机。

    登录方法:在“云化服务 > FusionSphere OpenStack OM”界面,在Service OM虚拟机所在行,单击

    进入虚拟机界面后,根据提示输入“galaxmanager”用户和密码。

    默认密码:“IaaS@OS-CLOUD9!”。

  7. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“IaaS@OS-CLOUD8!”。

  8. 执行TMOUT=0防止会话超时退出。
  9. 在主节点上执行以下命令,禁止主备倒换。

    ha_switch -f MODIFY_DB 86400

  10. 在备节点上执行以下命令,停止所有进程。

    stopALL

    显示如下信息,表示进程停止成功。

    Stop all services success.

    备节点进程停止成功后,在主节点上执行命令停止进程:

    stopALL

    显示如下信息,表示进程停止成功。

    Stop all services success.

  11. 在主节点上执行以下命令,恢复主节点数据。

    restoreFusionManager -f 备份文件路径+备份文件名

    备份文件名:“gmdb-YYYY-MM-DD-sn.dump”,“YYYY-MM-DD”表示备份日期,“sn”表示序列号。

    例如:restoreFusionManager -f /opt/gmbackup/db/manualbk/gmdb-2014-12-02-5.dump

    显示如下信息,表示恢复数据成功。

    [INFO ] Check conflict backup or restore task... 
    ... 
    [INFO ] Restore FusionManager ok

  12. 在主节点上执行以下命令,配置HA功能。

    initGmn4Restore

    显示如下信息,表示配置成功。

    [INFO ] configure in HA mode 
    [INFO ] check configuration success 
    [INFO ] configure ip success 
    [INFO ] start configure ha, it will take about 1~2 minuters 
    [INFO ] configure ha success 
    [INFO ] init successful 
    [INFO ] init for restore successful

  13. 参考步骤 55步骤 56,在Service OM备节点上恢复数据和配置HA功能。
  14. 配置Service OM主备节点网络信息。

    在Service OM主节点上执行以下命令:

    modConfig initNet

    回显如下信息,表示命令执行成功:

    init finished.

    主节点上执行成功后,在备节点上执行以下命令:

    modConfig initNet

    回显如下信息,表示命令执行成功:

    init finished.

  15. 等待大约5分钟,在Service OM主节点上执行以下命令,查看当前Service OM主备节点状态。

    QueryHaState

    显示类似如下信息:

    LOCAL_HOST=FMN01 
    LOCAL_STATE=active 
    LOCAL_IP=192.168.0.79 
     
    REMOTE_HOST=FMN02 
    REMOTE_STATE=standby 
    REMOTE_IP=192.168.0.80     

    当Service OM节点的状态分别为“active”和“standby”时,表示主备状态正常。

  16. 在Service OM主节点上,执行以下命令,取消禁止主备倒换。

    ha_switch -c MODIFY_DB

    说明:

    Region Type I场景下,在使用cloud-init的场景下,若将Service OM虚拟机重新部署在被级联层的计算节点,还需要做如下配置:

    1. 将这个计算节点(假设为host1)从manage_cluster移除。

      cps cluster-update --name manage_cluster host1

    2. 将这个计算节点(假设为host1)加入原cluster(假设为compute_cluster)。若计算节点原来未加入任何cluster,则直接执行60.c
    3. 提交修改。

      cps commit

  17. 恢复FusionSphere OpenStack上OM相关配置文件,具体操作可参考本故障处理的“相关任务”中的“替换FusionSphere OpenStack...”小节。
  18. 在Service OM主节点上执行如下命令,解锁FSPRest用户。

    unlockSysAccount FSPRest

  19. 配置FusionSphere OpenStack告警上报。

    配置FusionSphere OpenStack告警上报,具体操作请参见《FusionCloud 6.3.1 运维指南》中“配置FusionSphere OpenStack告警上报”章节。

相关任务

替换FusionSphere OpenStack相关配置文件

  1. 使用“PuTTY”,通过FusionSphere OpenStack反向代理的IP地址登录AZ内第一台主机。

    帐号:fsp,默认密码:Huawei@CLOUD8

  2. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  3. 执行TMOUT=0防止会话超时退出。
  4. 导入环境变量,具体操作请参见导入环境变量

    此处请固定输入“1”,导入keystone V3环境变量。

  5. 执行以下命令,查询CPS服务所在主机,并记录主节点ID及External OM平面IP地址。

    cps template-instance-list --service cps cps-server

    回显信息中“runsonhost”即为CPS服务所在主机的ID。

    “status”为“active”的主机为主CPS服务所在主机,“omip”列的IP地址即为该节点的External OM平面IP地址。

  6. 执行以下命令,登录主CPS服务所在主机,并切换到“root”帐户。

    su - fsp

    ssh fsp@主机External OM平面IP地址

  7. 备份并替换OM相关数据。

    判断Service OM是否已经重新安装结束。

    • 是,则执行以下命令,然后执行步骤 8

      cd /home/fsp

      cp /etc/huawei/fusionsphere/3rdvms/ca.crt /home/fsp/ca.crt.bak

      cp /etc/huawei/fusionsphere/3rdvms/fusionmanager-init.ini /home/fsp/fusionmanager-init.ini.bak

      cp /etc/huawei/fusionsphere/3rdvms/ca-default.crt /home/fsp/ca.crt

      cp /etc/huawei/fusionsphere/3rdvms/fusionmanager-init-default.ini /home/fsp/fusionmanager-init.ini

    • 否,则执行以下命令,然后执行步骤 8

      cd /home/fsp

      cp /home/fsp/ca.crt.bak /home/fsp/ca.crt

      cp /home/fsp/fusionmanager-init.ini.bak /home/fsp/fusionmanager-init.ini

  8. 依次执行以下命令,恢复配置文件。

    ZAPPER_PATH=$(cat /etc/init.cfg|grep repo |awk -F '=' '{print $2}')

    echo $ZAPPER_PATH|grep "/$" || ZAPPER_PATH="${ZAPPER_PATH}/"

    INTERNAL_CPS_PWD=`python -c 'from FSSecurity import crypt;import ConfigParser;sys_file_parser = ConfigParser.RawConfigParser();sys_file_parser.read("/etc/huawei/fusionsphere/cfg/sys.ini");print crypt.decrypt(dict(sys_file_parser.items("system_account"))["internal_cps_password"])'`

    curl -k -i -H "X-Auth-User:internal_cps_admin" -H "X-Auth-Password:$INTERNAL_CPS_PWD" -X PUT -T /home/fsp/fusionmanager-init.ini ${ZAPPER_PATH}3rdvms/setup/fusionmanager-init.ini > /dev/null 2>&1

    curl -k -i -H "X-Auth-User:internal_cps_admin" -H "X-Auth-Password:$INTERNAL_CPS_PWD" -X PUT -T /home/fsp/ca.crt ${ZAPPER_PATH}3rdvms/setup/ca.crt

    回显类似如下信息,表示FusionSphere OpenStack配置更换成功。

    HTTP/1.1 100 Continue 
     
    HTTP/1.1 201 Created 
    Last-Modified: Mon, 28 Sep 2015 14:06:55 GMT 
    Content-Length: 0 
    Etag: c57d2f13fd66905b62c8c0420a20a548 
    Content-Type: text/html; charset=UTF-8 
    X-Trans-Id: txe0257216b17347f3ba2f9-005609497e 
    Date: Mon, 28 Sep 2015 14:06:54 GMT 
    Connection: close     

    回显信息异常时,执行以下命令,导入FusionSphere OpenStack配置。

    ZAPPER_PATH="https$(echo ${ZAPPER_PATH}|awk -F "http" '{print $2}')"

    INTERNAL_CPS_PWD=`python -c 'from FSSecurity import crypt;import ConfigParser;sys_file_parser = ConfigParser.RawConfigParser();sys_file_parser.read("/etc/huawei/fusionsphere/cfg/sys.ini");print crypt.decrypt(dict(sys_file_parser.items("system_account"))["internal_cps_password"])'`

    curl -k -i -H "X-Auth-User:internal_cps_admin" -H "X-Auth-Password:$INTERNAL_CPS_PWD" -X PUT -T /home/fsp/fusionmanager-init.ini ${ZAPPER_PATH}3rdvms/setup/fusionmanager-init.ini > /dev/null 2>&1

    curl -k -i -H "X-Auth-User:internal_cps_admin" -H "X-Auth-Password:$INTERNAL_CPS_PWD" -X PUT -T /home/fsp/ca.crt ${ZAPPER_PATH}3rdvms/setup/ca.crt

  9. 分别在CPS服务所在主机执行以下命令,删除环境里以下两个目录中的旧配置。

    rm /etc/huawei/fusionsphere/3rdvms/ca.crt > /dev/null 2>&1

    rm /etc/huawei/3rdvms/ca.crt> /dev/null 2>&1

    rm /etc/huawei/fusionsphere/3rdvms/fusionmanager-init.ini > /dev/null 2>&1

    rm /etc/huawei/3rdvms/fusionmanager-init.ini> /dev/null 2>&1

检查Service OM中“system_admin”的帐户密码是否被修改过

  1. 使用“PuTTY”,通过FusionSphere OpenStack反向代理的IP地址登录AZ内第一台主机。

    帐号:fsp,默认密码:Huawei@CLOUD8

  2. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  3. 执行TMOUT=0防止会话超时退出。
  4. 导入环境变量
  5. 执行以下命令,校验“system_admin”用户密码是否为默认密码。

    curl -i -k -d '{"auth":{"identity":{"methods":["password"],"password":{"user":{"domain":{"name":"Default"},"name":"system_admin","password":"FusionSphere123"}}},"scope":{"project":{"name":"admin","domain":{"name":"Default"}}}}}' -H "Content-type: application/json" https://identity.az1.dc1.domainname.com/identity-admin/v3/auth/tokens?nocatalog

    显示如下回显信息,表示密码为默认密码。

    HTTP/1.0 200 Connection Established 
    Proxy-agent: Apache 
     
    HTTP/1.1 201 Created 
    Date: Fri, 31 Mar 2017 06:10:57 GMT 
    Server: Apache 
    X-Subject-Token: MIIDhgYJKoZIhvcNAQcCoIIDdzCCA3MCAQExDTALBglghkgBZQMEAgEwggHUBgkqhkiG9w0BBwGgggHFBIIBwXsidG9rZW4iOnsibWV0aG9kcyI6WyJwYXN 
    zd29yZCJdLCJyb2xlcyI6W3siaWQiOiI1ZmFlMTRlYzEzMDA0MTJmOGFmZGIzNDJiYTc0YmI2MCIsIm5hbWUiOiJhZG1pbiJ9XSwiZXhwaXJlc19hdCI 
    6IjIwMTctMDMtMzFUMTI6MTA6NTcuMDAwMDAwWiIsInByb2plY3QiOnsiZG9tYWluIjp7ImlkIjoiZGVmYXVsdCIsIm5hbWUiOiJEZWZhdWx0In0sIml 
    kIjoiNDk2MWQ4YTViYjkyNDdhNGJkZDAxZmE5M2FkNGEyMWYiLCJuYW1lIjoiYWRtaW4ifSwidXNlciI6eyJkb21haW4iOnsiaWQiOiJkZWZhdWx0Iiw 
    ibmFtZSI6IkRlZmF1bHQifSwiaWQiOiJiMDBkYTlmOTA2NjI0NGM2OWU2YjY4ZDJhMjJhOGFhZCIsIm5hbWUiOiJzeXN0ZW1fYWRtaW4ifSwiYXVkaXR 
    faWRzIjpbIkpfU3FRYlFLVFVtVno5dkF2R0MteEEiXSwiaXNzdWVkX2F0IjoiMjAxNy0wMy0zMVQwNjoxMDo1Ny4wMDAwMDBaIn19MYIBhTCCAYECAQE 
    wXDBXMQswCQYDVQQGEwJVUzEOMAwGA1UECAwFVW5zZXQxDjAMBgNVBAcMBVVuc2V0MQ4wDAYDVQQKDAVVbnNldDEYMBYGA1UEAwwPd3d3LmV4YW1wbGU 
    uY29tAgEBMAsGCWCGSAFlAwQCATANBgkqhkiG9w0BAQEFAASCAQA41Gj6-6NkD-8cJqjYhwn2Hem9Er-qZ5ynyRbMGAX77qqxW+vXesN3yG06LasW0wI 
    rUd9vKV5XbfsfVZBzsif6Cq3F4VKQ2q0zVNEx6ZnEcLu7XBEbMC9zWf9+0j3xtPx15lNLs-Hky9Jd5AIkFytLgufQUGniA2xKwfWYdd-p3eHHjN1hojC 
    75Dbr2yl9fE5HVlLllfWu2e6dSm+zLhOn37CdkYXeThhGLqGg15C0f5wM8YxbmeHC68HCF8YW3uYnvL3s9fNa8yO0951VJdXPxI9pQgGUSoF0txvNNcU 
    Afu3LzwNdo87WxpoRgsgAB6QfqMEmx62psjQuSbJ-a0rT 
    Vary: X-Auth-Token 
    Content-Length: 482 
    x-openstack-request-id: req-9e46aaff-9355-4d5d-ab72-f6b8b10037e1 
    Content-Type: application/json 
     
    {"token": {"methods": ["password"], "roles": [{"id": "5fae14ec1300412f8afdb342ba74bb60", "name": "admin"}],  
    "expires_at": "2017-03-31T12:10:57.000000Z", "project": {"domain": {"id": "default", "name": "Default"},  
    "id": "4961d8a5bb9247a4bdd01fa93ad4a21f", "name": "admin"}, "user": {"domain": {"id": "default", "name": "Default"}, 
     "id": "b00da9f9066244c69e6b68d2a22a8aad", "name": "system_admin"}, "audit_ids": ["J_SqQbQKTUmVz9vAvGC-xA"],  
    "issued_at": "2017-03-31T06:10:57.000000Z"}}     

    显示如下回显信息,表示密码不是默认密码。

    HTTP/1.1 401 Unauthorized 
    Date: Fri, 31 Mar 2017 06:33:26 GMT 
    Server: Apache 
    WWW-Authenticate: Keystone uri="https://identity.az1.dc1.domainname.com/identity-admin" 
    Vary: X-Auth-Token 
    Content-Length: 114 
    x-openstack-request-id: req-b685c0db-c5d2-4f90-b5fd-e05c67b26530 
    Content-Type: application/json 
     
    {"error": {"message": "The request you have made requires authentication.", "code": 401, "title": "Unauthorized"}}     

主备部署时单个Service OM虚拟机故障

现象描述

Service OM主备部署时,单个Service OM虚拟机故障,且重启该虚拟机后业务仍无法恢复时,需要参考本故障处理操作,使业务快速恢复正常。

可能原因
  • Service OM虚拟机文件系统被破坏。
  • Service OM虚拟机所在主机操作系统故障。
处理步骤

检查主机image分区是否使用远端存储

主机image分区存在Service OM虚拟机,且image分区使用远端存储,存储中断或存储中断恢复后image挂载异常,导致Service OM虚拟机无法启动。

  1. 在FusionSphere OpenStack的安装部署界面上,选择“配置 > 磁盘”。
  2. 在“扩容存储”区域框中查看image磁盘分区是否使用远端存储。

  3. 查看Service OM虚拟机所在主机是否存在“ALM-6026 主机光纤通道中断”的告警。

  4. 以root权限登录Service OM虚拟机所在主机。
  5. 执行以下命令,查看image分区是否存在。

    mount | grep '/opt/HUAWEI/image '

    显示如下回显信息,表示存在image分区。

    /dev/mapper/extend_vg-image on /opt/HUAWEI/image type ext3 (rw,relatime,errors=continue,user_xattr,acl,barrier=1,data=ordered)

  6. 执行以下命令,查看image分区是否为只读。

    mount | grep '/opt/HUAWEI/image '

    /dev/mapper/extend_vg-image on /opt/HUAWEI/image type ext3 (rw,relatime,errors=continue,user_xattr,acl,barrier=1,data=ordered)

    显示如下回显信息,表示image分区为只读。

    /dev/mapper/extend_vg-image on /opt/HUAWEI/image type ext3 (ro,relatime,errors=continue,user_xattr,acl,barrier=1,data=ordered)
    • 是,执行步骤 17
    • 否,请联系技术支持工程师协助解决

  7. 迁移主机上的业务虚拟机,并重启主机使image分区恢复正常。

    任务结束。

重置状态恢复虚拟机

  1. 执行以下命令,将故障虚拟机状态设置为“error”。

    nova reset-state uuid

    说明:

    可通过nova list --all-t | grep fm命令,查询虚拟机信息,根据故障虚拟机的名称确定并记录该虚拟机的ID。

  2. 执行以下命令,关闭虚拟机,并观察虚拟机状态。

    nova stop uuid

    nova show uuid | grep OS-EXT-STS:vm_state

    其中的uuid为虚拟机uuid。

  3. 待虚拟机状态变为“stopped”时,执行以下命令,启动虚拟机,并观察虚拟机状态。

    nova start uuid

    nova show uuid | grep OS-EXT-STS:vm_state

  4. 虚拟机状态是否为“active”。

登录故障虚拟机

  1. 登录FusionSphere OpenStack的安装部署界面。

    具体操作请参见登录FusionSphere OpenStack安装部署界面(ManageOne方式)

  2. 选择“云化服务 > FusionSphere OpenStack OM”。
  3. 在故障Service OM虚拟机的所在行,单击,登录虚拟机。

    以“galaxmanager”用户登录操作系统,默认密码为“IaaS@OS-CLOUD9!”。

  4. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“IaaS@OS-CLOUD8!”。

  5. 执行TMOUT=0防止会话超时退出。
  6. 登录是否成功。

  7. 执行以下命令,查看目录“/opt/goku/data/db”的使用率是否超过98%。

    df -h

    Filesystem            Size  Used Avail Use% Mounted on 
    /dev/sda1             6.0G 1017M  4.7G  18% / 
                          ...
    /dev/sda13             36G  177M   34G   1% /opt/goku/data 
    /dev/sda11             15G  408M   14G   3% /opt/goku/data/db 
    /dev/sda2             7.9G  147M  7.4G   2% /sysback 
                          ...
    /dev/sda6             9.9G  239M  9.2G   3% /var/log/goku
    • 是,请联系技术支持工程师协助解决
    • 否,执行步骤 19

启动HA服务

  1. 执行以下命令,查看节点的HA状态。

    QueryHaState

    回显以下类似信息。

    LOCAL_HOST=Service OM01 
    LOCAL_STATE=unknow 
    LOCAL_IP=192.168.0.79 
     
    REMOTE_HOST=Service OM02 
    REMOTE_STATE=unknow 
    REMOTE_IP=192.168.0.80

  2. 判断回显中“LOCAL_STATE”的值是否为“unknow”。

  3. 执行以下命令,启动HA服务。

    startALL

    回显以下类似信息时,说明心跳IP冲突。

    The heartbeat IP address {IP地址} of the system conflicts with another IP address.

  4. 查看是否提示心跳IP冲突。

  5. 当前网络中是否有多套Service OM,且IP相同。

  6. 停止网络中其他的Service OM服务,或下电其他的Service OM节点。
  7. 按“Enter”,继续启动HA服务。
  8. 等待1分钟,执行以下命令,查询节点的HA状态。

    QueryHaState

  9. “LOCAL_STATE”的值是否仍为“unknow”。

    • 是,请联系技术支持工程师协助解决
    • 否,执行步骤 28

  10. 使用“PuTTY”,通过External OM 网络浮动IP地址登录Service OM主节点。

    默认帐户:galaxmanager,默认密码:“IaaS@OS-CLOUD9!”。

    说明:
    Service OM节点管理IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
    • Region Type I场:Cascading-OM-externalOM-Float-IP。
    • Region Type II和Type III场景:OM-externalAPI-Float-IP。

  11. 等待10分钟,执行以下命令,查看Service OM的状态是否都为“normal”。

    galaxmanager status

    • 是,处理完毕。
    • 否,请联系技术支持工程师协助解决

重建故障的Service OM虚拟机

  1. 在“云化服务 > FusionSphere OpenStack OM”界面,导入当前版本对应的版本包。
  2. 单击“更新镜像”,更新Service OM镜像。
  3. 在“云化服务 > FusionSphere OpenStack OM”界面,单击故障虚拟机后面的,重建故障的FusionSphere OpenStack OM虚拟机。

    等待60分钟左右,在虚拟机列表中,查看两台虚拟机的业务状态分别变为“主节点”和“备节点”,且故障虚拟机rebuild状态为“成功”表示故障恢复成功。

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:18383

下载量:439

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页