所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
常用操作

常用操作

异地重建虚拟机

操作场景

由于主机故障导致主机上的虚拟机无法正常运行,并且虚拟机未配置HA时,需要将故障主机上的虚拟机在其他主机上重建。

私有云场景下配套FusionCompute使用时,该方法只适用于管理虚拟机等KVM类型的虚拟机。

前提条件

已获取待重建虚拟机的ID信息。

操作步骤
  1. 使用“PuTTY”,通过External OM平面IP地址登录FusionSphere OpenStack。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  2. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  3. 执行TMOUT=0防止会话超时退出。
  4. 导入环境变量,详情请参见导入环境变量
  5. 执行以下命令,检查虚拟机是否从镜像启动。

    nova show vm_id

    其中,vm_id为待重建虚拟机的ID。

    查看回显信息“OS-EXT-SRV-ATTR:hypervisor_hostname”字段值,获取待重建虚拟机所在主机ID

    查看回显信息中的“image”字段。

    • 回显如下类似信息,表示从卷启动,执行步骤 7
      | image | Attempt to boot from volume - no image supplied|
    • 回显如下类似信息,表示从镜像启动(其中括号内为镜像ID),请联系技术支持工程师协助解决
      | image | cirros (d0bd0551-07f2-45f6-8516-f481e0152715)|
      说明:

      异地重建虚拟机,如果虚拟机是从镜像启动,会导致虚拟机系统盘和临时盘中数据丢失,该操作存在风险,所以需要联系技术支持确认并在重建后重装业务。

  6. 根据以下说明判断是否OS故障。

    说明:
    • Linux虚拟机无法登录系统、文件系统损坏,且无法修复。
    • Windows虚拟机无法登录系统、蓝屏、文件系统损坏无法修复。
    • 虚拟机OS无法引导。

  7. 执行以下命令,发送重建指令重建虚拟机。

    级联场景下重建命令:

    级联层:

    /opt/cloud/services/cascading-nova/venv/bin/python2.7 /etc/nova/nova-util/reschedule_vm.py <vm_id>

    被级联层:

    /opt/cloud/services/nova/venv/bin/python2.7 /etc/nova/nova-util/reschedule_vm.py <vm_id>

    非级联场景下重建命令:

    /opt/cloud/services/nova/venv/bin/python2.7 /etc/nova/nova-util/reschedule_vm.py <vm_id>

    其中,vm_id为待重建虚拟机的ID。

    回显信息中显示“####Reschedule Command has been accepted!####”说明重建指令发送成功,执行步骤 12

    回显信息中显示“Instance XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX sys volume is not found”,说明虚拟机系统卷已经卸载,请参考虚拟机卸载系统磁盘后发生故障的恢复方法处理。

    如果出现其他回显,请联系技术支持工程师协助解决

  8. 执行如下命令,查询虚拟机信息。

    nova show uuid

    uuid:从审计结果处理流程中获取,具体数据参见各章节获取方法。

    说明:
    • 主机名称:回显中OS-EXT-SRV-ATTR:host属性取值。
    • 挂载卷信息:回显中os-extended-volumes:volumes_attached属性取值中id字段为虚拟机所挂载卷的id。

  9. 执行如下命令,查询虚拟机系统卷的镜像id。

    cinder show uuid

    uuid:步骤 8中获取的挂载卷信息中的卷id。

    说明:
    • 挂载盘符:回显中attachments属性取值中device字段取值。
    • 卷镜像id:回显中volume_image_metadata属性取值中image_id字段取值。
    • 如果步骤 8获取有多个卷id,则重复执行多次该命令,取挂载盘符为/dev/vda或者/dev/xvda或者/dev/sda的卷镜像id。

  10. 执行如下命令,查询镜像状态是否为ACTIVE。回显信息中status属性值即为镜像状态。

    nova image-show image_id

    image_id:镜像id。

    • 是,执行步骤 11
    • 否,请联系技术支持工程师协助解决

  11. 执行如下命令,使用镜像id,重建虚拟机。

    nova rebuild <vm_id> image_id
    • image_id:镜像id。

  12. 执行以下命令,查询虚拟机重建是否成功。

    nova show <vm_id>

    其中,vm_id为待重建虚拟机的ID。

    查询回显信息中,“status”和“task_state”两个字段状态。

    • “status”状态为“ACTIVE”,“task_state”为“-”:虚拟机重建成功,可检查虚拟机是否能正常登录。
    • “status”状态为“ERROR”,“task_state”为“-”:重建失败,可能由于资源不足,可重复步骤 7再试一次,仍然失败请联系技术支持工程师协助解决
    • “task_state”不为“-”,管理员再等待5分钟,再重复该步,查看重建是否成功,若“task_state”一直不为“-”,再执行一次重建,如果未重建成功请联系技术支持工程师协助解决

说明:

如果重建的虚拟机为控制节点管理虚拟机,则执行步骤 13~步骤 15

  1. 虚拟机重建成功后。执行以下命令,获取重建成功后虚拟机所在主机ID。

    nova show <vm_id>

    其中,vm_id为待重建虚拟机的ID。

    查看回显信息“OS-EXT-SRV-ATTR:hypervisor_hostname”字段值,获取待重建虚拟机所在主机ID。

  2. 查看步骤 5步骤 13记录的主机ID是否一样。

  3. 参考步骤 5确认如果为镜像启动,需根据虚拟机名称确认原虚拟机上部署的业务后请联系技术支持工程师协助解决

虚拟机状态异常

现象描述

租户虚拟机状态异常或虚拟机状态与电源状态不一致。

可能原因
  • 对虚拟机进行操作时指定了不合法的参数。
  • 对虚拟机进行的操作类型只有部分操作系统支持。
  • 对虚拟机同时进行两种或以上操作,如同时进行挂载卷、卸载卷、挂载网卡、卸载网卡与重建、迁移、修改规格中的任意两种操作。
  • 对虚拟机进行操作过程中出现系统内部异常或网络异常。
处理步骤

在FusionSphere的版本发布路径获取系统审计文档进行审计,并对审计异常进行恢复。

Region TypeI参考《FusionCloud 6.3.1 告警&事件参考》系统审计(Region Type I)章节。

Region TypeII&III参考《FusionCloud 6.3.1 告警&事件参考》中“系统审计(Region Type II&Region Type III)”章节。

表7-2 虚拟机状态异常及处理方法

虚拟机异常状态

异常处理方法

虚拟机CPU占用率超过阈值

《FusionCloud 6.3.1 告警&事件参考》中的“ALM-6036 虚拟机CPU占用率超过阈值”

虚拟机ERROR状态告警

《FusionCloud 6.3.1 告警&事件参考》中的“ALM-70102虚拟机ERROR状态告警”

虚拟机HA中间态告警

《FusionCloud 6.3.1 告警&事件参考》中的“ALM-70106虚拟机HA中间态告警”

虚拟机发生HA

《FusionCloud 6.3.1 告警&事件参考》中的“ALM-70107虚拟机发生HA”

虚拟机目录文件异常

《FusionCloud 6.3.1 告警&事件参考》中的“ALM-70108虚拟机目录文件异常”

虚拟机HA失败

《FusionCloud 6.3.1 告警&事件参考》中的“ALM-70130虚拟机HA失败”

虚拟机发生反复重启故障

《FusionCloud 6.3.1 告警&事件参考》中的“ALM-73107虚拟机发生反复重启故障”

更换FusionSphere OpenStack访问Service OM服务的SSL认证证书

操作场景

Service OM更换自己的SSL认证根证书后,需要手动同步更换FusionSphere OpenStack访问Service OM服务的SSL认证证书。

前提条件
  • 已准备跨平台远程访问工具,如“PuTTY”。
  • 已获取有效根证书且命名为“ca.crt”。
  • 已获取第一台主机的反向代理IP地址、“fsp”及“root”帐户的登录密码。
操作步骤
  1. 使用“WinSCP”工具,以“fsp”用户将获取到的有效根证书“ca.crt”上传至FusionSphere OpenStack第一台主机。操作步骤中以上传至“/home/fsp”目录为例进行说明。

    通过FusionSphere OpenStack反向代理IP地址登录。使用“WinSCP”登录时协议选择“SFTP”,端口号默认为“22”。

    “fsp”用户默认密码为“Huawei@CLOUD8”。

  2. 使用“PuTTY”,通过External OM平面IP地址登录AZ内第一台主机。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  3. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  4. 执行TMOUT=0防止会话超时退出。
  5. 导入环境变量,具体操作请参见导入环境变量

    此处请固定输入“1”,导入keystone V3环境变量。

  6. 执行以下命令,进入上传证书的目录。

    cd /home/fsp

  7. 执行以下命令,导入服务端证书。

    ZAPPER_PATH=$(cat /etc/init.cfg|grep repo |awk -F '=' '{print $2}')

    echo $ZAPPER_PATH|grep "/$" || ZAPPER_PATH="${ZAPPER_PATH}/"

    INTERNAL_CPS_PWD=`python -c 'from FSSecurity import crypt;import ConfigParser;sys_file_parser = ConfigParser.RawConfigParser();sys_file_parser.read("/etc/huawei/fusionsphere/cfg/sys.ini");print crypt.decrypt(dict(sys_file_parser.items("system_account"))["internal_cps_password"])'`

    curl -k -i -H "X-Auth-User:internal_cps_admin" -H "X-Auth-Password:$INTERNAL_CPS_PWD" -X PUT -T /home/fsp/ca.crt ${ZAPPER_PATH}3rdvms/setup/ca.crt

    其中,“ca.crt”为根证书的名称。

    回显类似如下信息,表示服务端证书更换成功。

    HTTP/1.1 100 Continue 
     
    HTTP/1.1 201 Created 
    Last-Modified: Mon, 28 Sep 2015 14:06:55 GMT 
    Content-Length: 0 
    Etag: c57d2f13fd66905b62c8c0420a20a548 
    Content-Type: text/html; charset=UTF-8 
    X-Trans-Id: txe0257216b17347f3ba2f9-005609497e 
    Date: Mon, 28 Sep 2015 14:06:54 GMT 
    Connection: close

    回显返回非HTTP/1.1 201 Created时,执行以下命令,导入服务端证书。

    ZAPPER_PATH="https$(echo ${ZAPPER_PATH}|awk -F "http" '{print $2}')"

    INTERNAL_CPS_PWD=`python -c 'from FSSecurity import crypt;import ConfigParser;sys_file_parser = ConfigParser.RawConfigParser();sys_file_parser.read("/etc/huawei/fusionsphere/cfg/sys.ini");print crypt.decrypt(dict(sys_file_parser.items("system_account"))["internal_cps_password"])'`

    curl -k -i -H "X-Auth-User:internal_cps_admin" -H "X-Auth-Password:$INTERNAL_CPS_PWD" -X PUT -T /home/fsp/ca.crt ${ZAPPER_PATH}3rdvms/setup/ca.crt

  8. 执行以下操作查询CPS服务所在主机并记录主节点ID及External OM平面IP地址。

    cps template-instance-list --service cps cps-server

    回显信息中“runsonhost”即为CPS服务所在主机的ID。

    “status”为“active”的记录为主CPS服务所在主机,“omip”列的IP地址即为该节点的External OM平面IP地址。

  9. 执行如下命令,分别登录CPS服务所在主机,并切换到“root”帐户。

    su - fsp

    ssh fsp@主机External OM平面IP地址

    按照提示输入系统私钥密码,默认私钥密码是“Huawei@CLOUD8!”。如果已生成并替换了新的公私钥文件,请输入新私钥密码。或者直接按“Enter”后按照提示输入fsp用户的密码登录。

    “fsp”用户默认密码为“Huawei@CLOUD8”。

    su - root

    执行以下命令,防止系统超时退出。

    TMOUT=0

    “root”用户默认密码为“Huawei@CLOUD8!”。

  10. 分别在CPS服务所在主机执行以下命令,删除环境里以下两个目录中的旧证书。

    rm /etc/huawei/fusionsphere/3rdvms/ca.crt > /dev/null 2>&1

    rm /etc/huawei/3rdvms/ca.crt> /dev/null 2>&1

    其中,“ca.crt”为旧的证书的名称。

  11. 执行以下命令,删除上传的证书文件。

    rm /home/fsp/ca.crt

通过FusionSphere OpenStack快速采集故障信息

操作场景;

FusionSphere内部集成了提供事故场景信息采集功能,可以不依赖于外部FusionCare工具,加速事故场景的日志收集。

前提条件
  • 浏览器要求为“Internet Explorer”9.0–11.0、“Firefox”27.0–38.0、“Google Chrome” 30.0–41.0的正式版本。
  • 已通过反向代理IP地址登录FusionSphere OpenStack的安装部署界面。
    说明:

    通过反向代理IP地址登录FusionSphere OpenStack安装部署界面时,需确保已在安装阶段正确配置了反向代理。登录地址格式为“https://反向代理IP地址:8890”。如果没有配置反向代理,或者无法通过反向代理登录,可使用安装FusionSphere OpenStack阶段使用的本地PC通过“https://172.28.9.42:8890”登录。

操作步骤
  1. 在已登录的FusionSphere OpenStack安装部署界面,选择运维 > 日常维护,进入“日常维护”页面。

    图7-11 故障信息快速采集

  2. 在“故障信息快速采集”中,单击“导出”按钮。
  3. 等待约5分钟左右,系统生成“FusionSphere_CollectData.tar.gz”压缩文件,则故障信息收集并导出成功。

虚拟机系统卷损坏后无法登录的救援方法

操作场景

虚拟机系统磁盘损坏后,可能导致虚拟机无法登录。本操作指导工程师对虚拟机进行救援恢复。

操作步骤

从镜像启动的虚拟机,需要使用rescue命令救援,从卷启动的虚拟机,要使用虚拟机进行救援。可通过nova show VM_ID命令查看虚拟机从卷启动或从镜像启动。

查询虚拟机启动方式

  1. 使用“PuTTY”,通过External OM平面IP地址登录AZ内第一台主机。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  2. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  3. 执行TMOUT=0防止会话超时退出。
  4. 导入环境变量
  5. 查看虚拟机从镜像启动或从卷启动。

    1. 执行如下命令,采用安全方式操作。

      runsafe

      显示以下信息:

      Input command:
    2. 执行以下命令,查看被救援的虚拟机ID。

      nova list --all-t

      回显如下信息:

    3. 执行如下命令,查询虚拟机属性。

      nova show VM_ID

      其中,VM_ID为被救援虚拟机ID。

      • 回显以下类似信息,表明虚拟机是从镜像启动,括号内信息为镜像ID。请执行步骤 6步骤 10进行救援恢复。
        | image | cirros (d0bd0551-07f2-45f6-8516-f481e0152715)|
        如果回显以下信息,表明虚拟机是从卷启动。请执行步骤 11步骤 19进行救援恢复。
        | image | Attempt to boot from volume - no image supplied|

从镜像启动虚拟机的救援方法

  1. 上传救援镜像并完成镜像注册,具体操作请参见《FusionCloud 6.3.1 运维指南》中“注册镜像”章节。

    说明:
    • 建议救援镜像文件无需过大,能引导虚拟机正常启动,满足救援条件即可。
    • 建议救援镜像命名容易识别,以方便救援操作时选择救援镜像。

  2. 使虚拟机进入救援模式。

    使虚拟机进入救援模式,可以指定镜像,也可以不指定镜像,用户根据需要选择一种来操作。
    • 不指定镜像救援
      1. 执行命令nova rescue VM_ID,使虚拟机进入救援模式。

        其中,VM_ID为被救援虚拟机ID。

      2. 执行命令nova list --all-t,可以看到被救援的虚拟机状态已经变为“RESCUE”。

    • 指定镜像救援
      1. 执行命令glance image-list,查看可用镜像及镜像ID。

        其中,“Name”为“cirros”的镜像为步骤 6中注册的救援镜像。

      2. 执行命令nova rescue --image IMAGE_ID VM_ID,使虚拟机进入救援模式。

        其中,VM_ID为被救援虚拟机ID,IMAGE_ID 7.a中查到的镜像ID。这里的镜像可以选择Linux镜像,也可以选择Windows镜像,以下操作以Linux镜像为例。

      3. 执行命令nova list --all-t,可以看到被救援的虚拟机状态已经变为“RESCUE”。

  3. 执行以下命令,并使用回显信息中的Url登录虚拟机。

    nova get-vnc-console VM_ID novnc

    其中,VM_ID为被救援虚拟机ID。

    回显如下信息:

    将回显信息中Url的“nova-novncproxy.az1.dc1.domainname.com”替换成OpenStack环境的反向代理IP地址登录虚拟机。如:“https://192.168.11.11:8002/vnc_auto.html?token=be540cf4-0185-4992-bafc-60bf6db48191&lang=EN”。

    使用替换后的Url在浏览器中登录被救援的虚拟机。

  4. 输入虚拟机的用户名和密码登录虚拟机,然后执行修复受损系统卷的指令。

    • 进入救援模式前,虚拟机的系统盘为“vda”(Linux虚拟机通常为“vda”/“sda”,Windows虚拟机通常为“C”,挂载点需根据具体情况而定)。

    • 进入救援模式后,虚拟机的系统盘盘符向后顺延。

    说明:

    rescue接口本身就是用来修复系统卷的,所以在“rescue”状态下,只能看到系统盘。如果待救援的虚拟机数据卷也损坏了,在系统卷修复后,虚拟机正常启动再去修复数据卷即可。

  5. 救援操作完成后,执行命令nova unrescue VM_ID,虚拟机状态即可恢复“ACTIVE”。

    其中,VM_ID为被救援虚拟机ID。

    当虚拟机可以登录,并且开、关机等操作正常时,表示虚拟机救援恢复成功。

从卷启动虚拟机的救援方法

  1. 登录FusionSphere OpenStack管理控制台的租户视图,在“资源 > 计算 >计算实例 >虚拟机”中,找到要救援的虚拟机。
  2. 在“虚拟机”界面,单击“创建”,创建救援虚拟机。

    救援虚拟机的可用分区、规格、镜像等参数要与被救援虚拟机保持一致。

  3. 在被救援虚拟机所在行,选择“更多 > 关闭”,关闭被救援的虚拟机。
  4. 将被救援虚拟机的系统卷挂载到新创建的救援虚拟机上。

    1. 执行步骤 1步骤 4,登录AZ内第一台主机并导入环境变量。
    2. 执行命令nova list --all-t,可以看到被救援的虚拟机状态为“SHUTOFF”,记录其ID,以及救援虚拟机的ID。

    3. 执行命令nova show VM_ID,查询被救援虚拟机的系统卷ID和系统卷设备名称。

      其中,VM_ID为被救援虚拟机ID。

    4. 执行命令nova volume-detach VM_ID VOLUME_ID,卸载被救援虚拟机的系统卷。

      其中,VM_ID为被救援虚拟机ID,VOLUME_ID为被救援虚拟机的系统卷ID。

    5. 执行命令nova volume-attachments VM_ID,查看被救援虚拟机挂载的卷,发现系统卷已卸载。

      其中,VM_ID为被救援虚拟机ID。

    6. 执行命令nova volume-attach VM_ID VOLUME_ID,将被救援虚拟机的系统卷挂载到救援虚拟机上。

      其中,VM_ID为救援虚拟机ID,VOLUME_ID为被救援虚拟机的系统卷ID。

    7. 执行命令nova volume-attachments VM_ID,查看救援虚拟机挂载的卷,发现被救援虚拟机的系统卷已挂载。

      其中,VM_ID为救援虚拟机ID。

  5. 执行以下命令,并使用回显信息中的Url登录救援虚拟机。

    nova get-vnc-console VM_ID novnc

    其中,VM_ID为救援虚拟机ID。

    回显如下信息:

    将回显信息中Url的“nova-novncproxy.az1.dc1.domainname.com”替换成OpenStack环境的反向代理IP地址登录虚拟机。如:“https://192.168.11.11:8002/vnc_auto.html?token=7c640a6b-e23a-4885-a651-e6df097f12eb&lang=EN”。

    使用替换后的Url在浏览器中登录救援虚拟机。

  6. 根据具体情况执行修复受损文件系统的指令或操作。
  7. 修复完成后,在FusionSphere OpenStack管理控制台的“虚拟机”界面,在救援虚拟机所在行,选择“更多 > 关闭”,关闭救援虚拟机。
  8. 在FSP后台执行以下操作,将救援虚拟机上卸载修复完成的系统卷,重新挂载到被救援虚拟机上。

    1. 执行命令nova volume-detach VM_ID VOLUME_ID,将救援虚拟机上修复完成的系统卷卸载。

      其中,VM_ID为救援虚拟机ID,VOLUME_ID为被救援虚拟机的系统卷ID。

    2. 执行命令nova volume-attachments VM_ID,查看救援虚拟机挂载的卷,发现修复完成的系统卷已被卸载。

      其中,VM_ID为救援虚拟机ID。

    3. 执行命令nova volume-attach VM_ID VOLUME_ID VOLUME_NAME,将修复完成的系统卷重新挂载到被救援虚拟机上。

      其中,VM_ID为被救援虚拟机ID,VOLUME_ID为被救援虚拟机的系统卷ID,VOLUME_NAME为被救援虚拟机的系统卷设备名称。

    4. 执行命令nova volume-attachments VM_ID,查看被救援虚拟机挂载的卷。

      其中,VM_ID为被救援虚拟机ID。

  9. 在FusionSphere OpenStack管理控制台的“虚拟机”界面,在被救援虚拟机所在行,单击“启动”,将被救援虚拟机启动。

    被救援虚拟机的状态从“已停止”变为“运行中”,表示虚拟机救援恢复成功。

迁移虚拟机

虚拟机运行在主机上,当主机出现故障、资源分配不均(如负载过重、负载过轻)等情况时,可通过迁移虚拟机来保证虚拟机业务的正常运行。虚拟机迁移方式包括热迁移和冷迁移。

背景信息
  • 虚拟机网卡为“SR-IOV”、“PF”或“PCI”直通模式时,不支持热迁移功能。
  • 本地硬盘直通的虚拟机不支持热迁移功能。
  • 以下情况可进行虚拟机热迁移:
    • 当主机故障或主机负载过重时,可以将运行的虚拟机热迁移到另一台主机上,避免业务中断,保证业务的正常运行。
    • 当多数主机负载过轻时,可以将虚拟机进行热迁移整合,以减少主机数量,提高资源的利用率,实现节能减排。
  • 以下情况可进行虚拟机冷迁移:
    • 在升级、部件更换等场景需要迁移虚拟机。
    • 虚拟机处于运行状态,且无法进行热迁移时,可以冷迁移虚拟机。
说明:
  • 迁移虚拟机时,需要逐个虚拟机进行迁移,即一个虚拟机迁移成功后,再迁移下一个。
  • 在虚拟机热迁移时,如果迁移的虚拟机业务量较大或内存占用率较大,会导致热迁移时间变长,建议在业务量较小时进行热迁移。
  • 当前系统界面在热迁移时间超过12小时会提示超时,但系统内部热迁移任务超时时间为24小时,在系统内部超时之后热迁移任务才会终止,占用的资源才能被释放。
  • 对本地磁盘启动的虚拟机进行热迁移时,OpenStack只判断目的主机实际可用磁盘空间是否满足,不受Hypervisor显示的剩余容量的约束。
  • 热迁移要求目的主机和源主机上的hypervisor类型一致(kvm、vrm)。
  • 当虚拟机所属可用分区的虚拟化类型为FusionCompute时,可以使用批量冷迁移功能。

更多虚拟机迁移限制条件可参考表7-3

表7-3 限制约束条件

资源相关虚拟机

是否支持冷迁移

是否支持热迁移

本地文件虚拟机

普通卷启动虚拟机

DPDK虚拟机

SRIOV/PF直通虚拟机

含共享卷的虚拟机

是(不支持整机迁移)

是(不支持整机迁移)

含SCSI直通卷的虚拟机

NUMA亲和虚拟机

绑核的虚拟机

大页内存虚拟机

前提条件

已登录ManageOne运维面。

操作步骤
  1. 在ManageOne运维面上方的导航栏,选择“运维地图”。
  2. 在“运维地图”页面,选择配置 > 云服务配置 > 计算服务配置 > 计算实例,进入“计算实例”页面。
  3. 相关任务和对应的操作如表7-4所示。

    表7-4 迁移虚拟机

    子任务

    操作步骤

    热迁移

    1. 在虚拟机所在行,选择更多 > 热迁移
    2. 选择虚拟机迁移的目的主机,单击“确定”。

    冷迁移

    1. 在虚拟机所在行,选择更多 > 冷迁移 ,提示如下警告,单击“确定”。

    2. 在“冷迁移”界面,选择“指定主机”或“不指定主机”。
      说明:
      • 指定主机:选择虚拟机迁移到指定的主机。用户需要在下方的主机列表中,指定一台进行迁移。
      • 不指定主机:由系统自动迁移到某台主机。

    3. 单击“确定”。

数据库操作

定位所需的日志路径
数据库服务端日志路径:

登录数据库所在节点,在“/var/log/fusionsphere/component/gaussdb”目录获取。

数据库控制脚本日志路径:

登录数据库所在节点,在“/var/log/fusionsphere/component/gaussdbControl”目录获取。

系统日志

登录数据库所在节点,在“/var/log/uvp-getosstat”目录获取UVP记录的系统状态日志;在“/var/log/messages”获取系统操作日志。

主备仲裁组件日志

登录数据库所在节点,在“/var/log/fusionsphere/component/cps-server”目录获取cps-server日志;在“/var/log/fusionsphere/component/cps-client”目录获取cps-client日志。

登录数据库所在节点
  1. 使用“PuTTY”,通过External OM平面IP地址登录FusionSphere OpenStack的第一台主机。

    帐号:fsp,默认密码:Huawei@CLOUD8
    说明:
    • 系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点
    • External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
      • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
      • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  2. 执行以下命令切换到“root”用户。

    su - root

    “root”用户的默认密码为“Huawei@CLOUD8!”。

  3. 执行TMOUT=0防止会话超时退出。
  4. 导入环境变量
  5. 使用cps template-instance-list --service gaussdb gaussdb命令,查询数据库所在单板,active对应数据库主节点所在hostid,standby对应为备节点hostid,“omip”列的IP地址即为该节点的External OM平面IP地址。回显信息如下所示。

    +------------+---------------+---------+--------------------------------------+------------+ 
    | instanceid | componenttype | status  | runsonhost                           | omip       | 
    +------------+---------------+---------+--------------------------------------+------------+ 
    | 0          | gaussdb       | active  | 40E3DF67-12BF-E411-8135-000000821800 | 128.26.3.7 | 
    | 1          | gaussdb       | standby | 201A5510-FBDD-E411-A9B3-000000821800 | 128.26.3.4 | 
    +------------+---------------+---------+--------------------------------------+------------+

  6. 执行如下命令,登录数据库所在节点。

    su fsp

    ssh fsp@主机External OM平面IP地址

    按照提示输入系统私钥密码,默认私钥密码是“Huawei@CLOUD8!”。如果已生成并替换了新的公私钥文件,请输入新私钥密码。或者直接按“Enter”后按照提示输入fsp用户的密码登录。

    例如:

    ssh fsp@172.28.6.3

    先用帐号“fsp”登录,然后使用“su - root”切换到帐号“root”。

    帐号“fsp”的初始密码为“Huawei@CLOUD8”。

    帐号“root”的初始密码为“Huawei@CLOUD8!”。

    导入环境变量,具体操作请参见导入环境变量

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:18399

下载量:439

平均得分:
本文档适用于这些产品
相关版本
相关文档
Share
上一页 下一页