所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 故障处理 06

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
节点故障

节点故障

部署节点故障恢复

现象描述

当故障节点为部署节点时,仅支持如下故障场景的恢复:

  • 操作系统故障导致节点不可用。
  • 服务部署系统数据库损坏。
    • 数据库备实例复制状态异常。
    • 数据库备实例异常。
    • 数据库主实例异常。
  • 文件误删除或者磁盘损坏。
操作系统故障恢复
现象描述

操作系统故障是指操作系统无法使用的故障,目前只针对部署系统是双机部署且一个节点故障的情况。例如:操作系统无法登录,可以通过操作指令进行恢复。

前提条件

已获取操作系统镜像。

处理步骤
  1. 在Service OM首页中,选择“计算 > 弹性云服务器 > 计算实例”。
  2. 单击“操作”列“更多”右侧的
  3. 在弹出下拉列表中单击“关闭”。
  4. 在弹出对话框中单击“确定”,关闭故障虚拟机。
  1. 单击故障虚拟机,在界面中选择“硬件 > 磁盘”。
  2. 在磁盘界面“操作”列中单击“解绑定”。
  3. 在弹出对话框中单击“确定”,将故障虚拟机和数据盘解绑。
  1. 在计算实例界面单击“操作”列“更多”右侧的
  2. 在弹出下拉列表中单击“删除”。
  3. 在弹出对话框中单击“确定”,删除故障虚拟机。
  4. 重装虚拟机(重装虚拟机IP地址需要和故障虚拟机IP地址一样),请参考如何创建虚拟机重装虚拟机,同时参考修改时区修改故障节点的时区。Date时间与任意正常运行的ManageOne虚拟机时间保持一致,如果不一致,执行如下命令。

    date -s"正常运行的ManageOne虚拟机时间"

    例如:date -s "2018-06-01 12:10:15"。

  5. 执行如下命令,配置虚拟机服务端口。

    echo "34001 60999" > /proc/sys/net/ipv4/ip_local_port_range

    sed -i '/^net.ipv4.ip_local_port_range*/d' /etc/sysctl.conf

    echo "net.ipv4.ip_local_port_range = 34001 60999" >> /etc/sysctl.conf

  6. 在Service OM首页中,选择“存储 > 云硬盘 > 磁盘”。
  7. 单击界面“操作”列“更多”右侧的
  8. 在弹出下拉列表中单击“绑定虚拟机”。
  9. 在弹出对话框中单击“确定”,将旧磁盘绑定在新的虚拟机上。
  10. 使用PuTTY,登录故障节点。

    说明:

    故障节点查看方式:登录ManageOne部署面,进入“部署资源 > 服务器 ”进行查看。

    默认帐户:sopuser,默认密码:D4I$awOD7k。

  11. 执行如下命令,切换至root用户。

    su - root

    默认密码:Changeme_123。

  12. 执行如下命令,将旧的磁盘挂载至新虚拟机。

    mount /dev/mapper/oss_vg-opt_vol /opt

    mount /dev/mapper/oss_vg-optlog_vol /opt/log

    vi /etc/fstab

    将以下内容写入到fstab文件。

    /dev/oss_vg/opt_vol /opt ext4 defaults,usrquota,grpquota,nodev,nosuid 0 2

    /dev/oss_vg/optlog_vol /opt/log ext4 defaults,nodev,nosuid 0 2

  13. 判断故障节点。

  14. 执行如下命令,将DeployAgent包解压到指定的目录。

    cd /opt/pub/software/repository/Services/ServiceDeploy/DeployAgent/

    unzip -o DeployAgent-1.28.65.zip -d baseagent

    说明:

    1.28.65为版本号,根据实际值进行替换。

  15. 执行如下命令,将check_create_user_group.sh文件拷贝到manager目录。

    cp baseagent/tools/shscript/manager/check_create_user_group.sh /opt/oss/manager/agent/tools/shscript/manager/

  16. 执行以下命令创建服务部署系统的用户组和用户。

    export SOP_ROOT=/opt

    /bin/bash ${SOP_ROOT}/oss/manager/agent/tools/shscript/manager/check_create_user_group.sh
    说明:

    SOP_ROOT为服务部署系统安装的根目录,此处以/opt为例。

  17. 请参见初始化故障节点进行故障节点初始化。
  18. 请参见重新部署故障节点服务重新部署故障节点服务,参见数据库备实例异常恢复数据库复制状态。
  19. 执行如下命令,配置deploy01节点的NTP时钟源。

    sed -i "/server .* maxpoll 4 minpoll 3/d" /etc/ntp.conf;

    echo "server NTP时钟源的IP地址 maxpoll 4 minpoll 3 prefer">>/etc/ntp.conf;

    说明:

    如果有多个NTP时钟源,请重复执行本命令依次添加。

  20. 执行如下命令,重启NTP服务。

    service ntpq -p restart

  21. 执行如下命令,查看NTP时钟源是否配置成功。

    cat /etc/ntp.conf |grep "server NTPIP maxpoll 4 minpoll 3 prefer"

    • 是,查看到的IP地址前面带有“*”。
    • 否,请联系技术支持工程师协助解决。

  22. 故障恢复后请参见操作系统加固对操作系统进行安全加固。
  23. 执行如下命令,退出root用户。

    exit

数据库故障恢复
现象描述

数据库故障是指数据库错误导致的服务部署系统出现异常的故障,例如:数据库实例异常。必须恢复数据库来修复故障。

前提条件

服务部署系统数据库必须已执行定期备份操作,否则部分场景(如主备数据库实例均异常)无法恢复,备份方法请参见《FusionCloud 6.3.1 备份恢复指南》中的“备份ManageOne数据”章节进行操作。

处理步骤

双机部署

  1. 删除部署节点下除服务部署系统数据库实例以外的MySQL数据库实例。

    1. 登录服务部署系统,在主菜单选择“部署 > 数据库管理 > 关系数据库”。
    2. 在“关系数据库”页面右上方的搜索框中输入部署节点的IP地址并按“Enter”。记录部署节点下的MySQL数据库实例名称。
    3. 使用PuTTY工具以root用户登录部署节点。
    4. 执行以下命令删除指定数据库。

      su - ossadm

      /opt/oss/envs/Product-DataMgmtService/service/bin/dbsvc_adm -cmd delete-db-instance -instid 数据库实例名

  2. 删除部署节点下除服务部署系统数据库实例以外的Redis数据库实例。

    1. 登录服务部署系统,在主菜单选择“部署 > 数据库管理 > Redis”。
    2. 在“Redis”页面右上方的搜索框中输入部署节点的IP地址并按“Enter”,记录部署节点下的Redis数据库实例名称。
    3. 使用PuTTY工具以root用户登录部署节点。
    4. 执行以下命令查询并记录“/opt/redis/data”目录下的数据库实例。

      cd /opt/redis/data

      ll

    5. 执行以下命令删除指定数据库实例。.

      su - ossadm

      /opt/oss/envs/Product-DataMgmtService/service/bin/dbsvc_adm -cmd delete-db-instance -instid 数据库实例名

  3. 在部署面选择“部署 > 特性部署 > 服务列表”,搜索MOCustom,单击进行部署。

    说明:

    所有的搜索结果均需进行部署。

  4. 参见《FusionCloud 6.3.1 备份恢复指南》中的“恢复ManageOne数据”章节恢复ManageOne数据。

单机部署

参见数据库备实例异常恢复数据库异常。

应用节点故障恢复

恢复场景

当故障节点为应用节点时,仅支持如下故障场景的恢复:

  • 操作系统故障导致节点不可用。
  • 文件误删除或者磁盘损坏。
操作系统故障恢复
现象描述

操作系统故障是指操作系统无法使用的故障,例如:操作系统无法登录。可以通过操作指令进行恢复。

前提条件

已获取操作系统镜像。

处理步骤
  1. 在Service OM首页中,选择“计算 > 弹性云服务器 > 计算实例”。
  2. 单击“操作”列“更多”右侧的
  3. 在弹出下拉列表中单击“关闭”。
  4. 在弹出对话框中单击“确定”,关闭故障虚拟机。
  1. 单击故障虚拟机,在界面中选择“硬件 > 磁盘”。
  2. 在磁盘界面“操作”列中单击“解绑定”。
  3. 在弹出对话框中单击“确定”,将故障虚拟机和数据盘解绑。
  1. 在计算实例界面单击“操作”列“更多”右侧的
  2. 在弹出下拉列表中单击“删除”。
  3. 在弹出对话框中单击“确定”,删除故障虚拟机。
  4. 重装虚拟机(重装虚拟机IP需要和故障虚拟机IP一样),请参考如何创建虚拟机重装虚拟机,同时参考修改时区修改故障节点的时区。Date时间与任意正常运行的ManageOne虚拟机时间保持一致,如果不一致,执行如下命令。

    date -s"正常运行的ManageOne虚拟机时间"

    例如:date -s "2018-06-01 12:10:15"。

  5. 执行如下命令,配置虚拟机服务端口。

    echo "34001 60999" > /proc/sys/net/ipv4/ip_local_port_range

    sed -i '/^net.ipv4.ip_local_port_range*/d' /etc/sysctl.conf

    echo "net.ipv4.ip_local_port_range = 34001 60999" >> /etc/sysctl.conf

  6. 请参见初始化故障节点进行故障节点初始化。
  7. 执行如下命令,重启NTP服务。

    service ntpd restart

  8. 在Service OM首页中,选择“存储 > 云硬盘 > 磁盘”。
  9. 单击界面“操作”列“更多”右侧的
  10. 在弹出下拉列表中单击“绑定虚拟机”。
  11. 在弹出对话框中单击“确定”,将步骤 7中解绑的旧磁盘绑定在新的虚拟机上。
  12. 使用PuTTY工具以sopuser用户登录故障节点。

    默认密码:D4I$awOD7k。

  13. 执行如下命令,切换至root用户。

    su - root

    默认密码:Changeme_123。

  14. 执行如下命令,将旧的磁盘挂载至新虚拟机。

    mkdir /opt/log

    mount /dev/mapper/oss_vg-opt_vol /opt

    mount /dev/mapper/oss_vg-optlog_vol /opt/log

    vi /etc/fstab

    将以下内容写入到fstab文件。

    /dev/oss_vg/opt_vol /opt ext4 defaults,usrquota,grpquota,nodev,nosuid 0 2

    /dev/oss_vg/optlog_vol /opt/log ext4 defaults,nodev,nosuid 0 2

  15. 请参见重新部署故障节点服务重新部署故障节点服务。
  16. 执行如下命令,添加新的DNS服务器。

    echo "nameserver dnsIP" >> /etc/resolv.conf

    说明:

    如果有多个DNS IP地址,则此命令需要执行多次。

  17. 如果故障节点有部署ES服务,需要进行如下配置。

    1. 进入ManageOne_init_tools文件夹的“bin”目录下。
    2. 使用FileZilla工具将“es_modify_system_config.sh”文件上传到故障节点的“/opt”目录下。
    3. 执行如下命令 ,替换操作系统的内核文件。

      bash /opt/es_modify_system_config.sh

  18. 执行如下命令,配置浮动IP地址。

    • 如果regionAlias-ManageOne-Service01和regionAlias-ManageOne-Service02全部重装,需要在regionAlias-ManageOne-Service01上配置运维侧浮动IP地址。
    • 如果regionAlias-ManageOne-Service03和regionAlias-ManageOne-Service04全部重装,需要在regionAlias-ManageOne-Service03上配置运营侧浮动IP地址。

    ifconfig eth0:0 FloatIP netmask Mast

    说明:

    FloatIPMast请根据实际值进行替换。

  19. 故障恢复后请参见操作系统加固对操作系统进行安全加固。
  20. 执行如下命令,退出root用户。

    exit

  21. 请参见如何在运维面重新关联已恢复的节点重新关联已恢复的节点。
数据库故障恢复
现象描述

数据库故障是指数据库错误导致的服务部署系统出现异常的故障,例如:数据库实例异常。必须恢复数据库来修复故障。

前提条件

服务部署系统数据库必须已执行定期备份操作,否则部分场景(如数据库实例均异常)无法恢复,备份方法请参见《FusionCloud 6.3.1 备份恢复指南》中的“备份ManageOne数据”章节进行操作。

处理步骤

请参见本文档数据库故障进行操作。

破坏性故障恢复
现象描述

破坏性故障是指因文件被误删除或者磁盘损坏等不可逆操作导致服务部署系统无法使用,必须重新安装DeployAgent并恢复数据。

处理步骤
  1. 对故障节点的环境进行清理,请参考如何清理虚拟机环境进行环境清理。
  2. 重新初始化已故障的应用节点,具体请参见初始化故障节点

检查OMMHAService是否已部署

说明:

待节点状态为后,检查节点以前是否部署过OMMHAService。

  1. 使用浏览器登录ManageOne部署面。

    登录地址:https://部署面浮动IP地址:31943。例如:https://192.168.0.1:31943。

    默认帐号:admin,默认密码:Huawei12#$。

  2. 在主菜单选择“部署资源 > 服务器”。
  3. 单击要恢复的节点,在“环境列表”中的环境别名列查看是否有OMMHAService。

    使用PuTTY工具以sopuser用户登录故障节点,执行以下命令确保OMMHAService可以部署成功。

    su - root

    Password:

    cd /opt/oss/Product/etc

    chown -R ossadm:ossgroup cipher/ ssl/

    说明:
    • root用户的默认密码为Changeme_123。
    • Product代表租户名称,例如:SOP或者Product。请根据实际情况进行替换。

部署Agent服务

  1. 在主菜单选择“部署资源 > 服务器”。
  2. 单击故障节点的名称,进入故障节点的详细信息页面。在“Agent服务列表”中查看未部署的Agent服务。
  3. 在主菜单选择“部署资源 > Agent”。
  4. 在“Agent”页面右上方的搜索框中输入未部署的Agent服务"RouterAgent/regionAlias",按“Enter”。

    说明:

    regionAlias:区域别名,根据现网实际规划设置,需与环境规划中的“regionAlias”参数值保持一致。命名时必须由3个大写字母组成,例如MOC。

  5. 重新关联故障节点。

    1. 单击未部署服务“操作”列的进入“关联服务器”页面。
    2. 单击故障节点名称“操作”列的 ,再单击“是”。删除关联服务器成功。
    3. 单击 ,勾选故障节点,单击“确定”,在弹出框单击“是”。增加关联服务器成功。

  1. 部署Agent服务。

    1. 在主菜单选择“部署资源 > Agent”。
    2. 单击未部署服务“操作”列的 (部署/升级Agent)。
    3. 单击“确定”。

  2. 参见步骤 8~步骤 11,依次对BusService/regionAlias、DBAgent/regionAlias、MOICAgent/OMGlobal/regionAlias、BackupAgent/regionAlias进行部署Agent服务。
  3. 在主菜单选择“部署 > 数据库管理 > Redis”,根据故障节点IP进行过滤,记录故障节点的redis实例名称,然后登录部署节点,执行以下命令删除redis实例。

    说明:

    如果故障节点上无redis实例名称,则无需执行本步骤。

    su - ossadm

    默认密码:ZJE%JLq5qx。

    cd /opt/oss/manager/apps/DataMgmtService/bin

    ./dbsvc_adm -cmd delete-db-instance -instid 数据库实例名

    然后在部署面选择“部署 > 特性部署 > 服务列表”,搜索MOCustom,单击进行部署。

    说明:

    所有的搜索结果均需进行部署。

恢复数据库

  1. 在主菜单选择“部署 > 数据库管理 > 关系数据库”,根据故障节点IP进行过滤。
  2. 如果是单节点故障,请参见数据库备实例异常处理数据库异常场景。
  3. 如果是主备都故障,参考《FusionCloud 6.3.1 备份恢复指南》中的“恢复ManageOne数据”章节进行数据的恢复。

    说明:

    如果故障节点上无数据库实例,则无需执行本步骤。

重新部署节点故障前已有的应用
说明:

所有故障节点执行完步骤 2步骤 16后再执行本步骤。

  1. 使用PuTTY工具以sopuser用户登录部署节点。

    说明:

    部署节点获取方法:登录ManageOne部署面,进入“部署资源 > 服务器 ”进行查看。

    分布式模式请登录主部署节点。具体获取方法请参见判断部署系统节点的主备

    默认密码:D4I$awOD7k。

  2. 执行以下命令切换到ossadm用户。

    su - ossadm

    默认密码:ZJE%JLq5qx。

  3. 执行以下命令导出环境变量。

    . /opt/oss/manager/bin/engr_profile.sh

  4. 重新部署节点故障前已有的应用。

    1. 登录服务部署系统,选择“部署资源 > 服务器”,在服务器列表的ID列中查询并记录故障节点的序号。
    2. 执行以下命令重新部署节点故障前已安装的应用。
      说明:

      nodeId20.a查询到的故障节点序号。

      cd /opt/oss/manager/agent/rtsp/mccommon/tools/shscript

      sh ossrunpy.sh TroubleRecoveryMgmt redeployServices nodeId

      回显如下:

      [2016-12-16 11:48:01] [121856] stage_ids ['env3d85d92f-6901-4c38-8ecb-01fd8caa333b_stage_53d93f89-707d-449e-a52a-16bb66e627d1'] found for nodeId:1 
      [2016-12-16 11:48:01] [121856] Clear deploy history for nodeId:1 succeed. 
      [2016-12-16 11:48:01] [121856] Env names ['DeployTestAppService'] found for nodeId:1 
      [2016-12-16 11:48:01] [121856] stage of nodeId:1 is Gamma 
      Deploy service for env DeployTestAppService successfully. 
      [2016-12-16 11:48:03] [121856] Deploy services for nodeId:1 succeed. 
      [2016-12-16 11:48:03] [121856] Please switch to the browser and check the status and progress of the task.....

  5. 登录服务部署系统,选择“部署 > 任务列表”查看部署任务状态,状态为 则表示节点修复成功。
  6. 配置微服务参数。

    1. 配置应用服务参数

    请参见对应组网配置运维面服务参数进行配置应用服务参数。

    1. 配置sftp主备同步

      如果是regionAlias-ManageOne-Service03或者regionAlias-ManageOne-Service04节点故障,请参见配置运营面内部传输SFTP用户进行重新配置sftp主备同步。

    1. 修改sudoers配置文件

      请参见修改虚拟机配置文件进行修改sudoers配置文件。

    1. 记录服务器文件和目录权限

      请参见记录服务器文件和目录权限进行记录服务器文件和目录权限。

    1. 修改帮助中心的配置文件

      如果故障节点部署有MOHelpCenterWebsite服务(可以登录部署系统查看MOHelpCenterWebsite微服务所部署节点),请参(可选)修改帮助中心的版权信息修改帮助中心的云服务范围进行修改帮助中心的配置文件。

  7. 执行如下命令,加固虚拟机。

    sed -i 's/PermitRootLogin yes/PermitRootLogin no/g' /etc/ssh/sshd_config

    service sshd restart

  8. 执行如下命令,检查tenant.json和tenants.json文件中Product下面显示的“userName”信息和如下对应的显示信息要保持一致。

    /opt/oss/manager/var/tenants/Product/tenant.json

    {
        "tenants": {
            "Product": {
                "fromDeployTemplate": "",
                "ossuser": {
                    "userName": "ossuser",
                    "groupName": "ossgroup",
                    "userID": "3004",
                    "groupID": "2000",
                    "homeDir": "/home/ossuser"
                },
                "productVersion": "",
                "language": "zh_CN",
                "productType": "Telco OS 1.0"
            }
        },
        "fileVersion": "1",
        "installPath": "/opt/oss"
    }

    /opt/oss/manager/etc/sysconf/tenants.json

    {
        "tenants": {
            "manager": {
                "fromDeployTemplate": "",
                "ossuser": {
                    "userName": "ossadm",
                    "groupName": "ossgroup",
                    "userID": "3001",
                    "groupID": "2000",
                    "homeDir": "/home/ossadm"
                },
                "productVersion": "",
                "language": "zh_CN",
                "productType": "Telco OS 1.0"
            },
            "Product": {
                "fromDeployTemplate": "",
                "ossuser": {
                    "userName": "ossuser",
                    "groupName": "ossgroup",
                    "userID": "3004",
                    "groupID": "2000",
                    "homeDir": "/home/ossuser"
                },
                "productVersion": "",
                "language": "zh_CN",
                "productType": "Telco OS 1.0"
            }
        },
        "fileVersion": 1,
        "installPath": "/opt/oss"
    }

  9. 请参见验证结果验证处理结果。

节点重启后,服务状态异常

现象描述
  • 节点重启后,服务未正常启动。
  • 无法正常登录部署面。
处理步骤
  1. 使用PuTTY工具,通过异常节点的IP地址,登录异常节点。

    默认帐户:sopuser,默认密码:D4I$awOD7k。

  2. 执行如下命令,切换到ossadm用户。

    su - ossadm

    默认密码:ZJE%JLq5qx。

  3. 执行如下命令,启动微服务。

    cd /opt/oss/manager/agent/bin

    . engr_profile.sh

    ./ipmc_adm -cmd startnode

磁盘损坏,进入维护模式

现象描述

挂载磁盘操作的过程中,磁盘损坏,系统自动进入维护模式。

显示如下信息时,说明磁盘已损坏。

[3.116335]systemd-fsck[597]:/dev/mapper/oss_vg-optlog_vol:Inodes that were part of a corrupted orphan linked list found.
[3.118363]systemd-fsck[597]:/dev/mapper/oss_vg-optlog_vol:UNEXPECTED INCONSISTENCY;RUN fsck MANUALLY.
[3.119977]systemd-fsck[597]:/dev/mapper/oss_vg-optlog_vol:(i.e.,without -a or -p options)
说明:

/dev/mapper/oss_vg-optlog_vol为磁盘名称,请依据实际环境替换。

可能原因
  • 虚拟机下电。
  • 重启磁阵。
处理步骤
  1. 进入维护模式后,系统自动以root用户登录。
  2. 执行如下命令,卸载磁盘。

    umount 磁盘名称

  3. 显示如下信息时,执行如下命令,停止正在使用的进程,然后再umount。

    [root@EulerOS-BaseTemplate ~]# umount /dev/mapper/oss_vg-optlog_vol
    umount: /opt: target is busy.
    (In some cases useful info about processes that use 
     the device is found by lsof(8) or fuser(1))

    fuser -ck /opt

    说明:

    opt为目录名称。

  4. 执行如下命令,修复磁盘。

    fsck.ext4 -f -y 磁盘名称

  5. 执行如下命令,重启虚拟机。

    reboot

  6. 执行如下命令,退出root用户。

    exit

操作系统出现只读状态

现象描述

执行命令时,操作系统变成只读状态。

可能原因
  • 虚拟机下电。
  • 重启磁阵。
  • 操作系统文件或磁盘损坏。
  • 存储设备空间已满。
处理步骤
  1. 重启操作系统,环境有可能会自动恢复。

    如果在恢复过程中出现如下回显信息,说明挂载磁盘异常。
    [3.116335]systemd-fsck[597]:/dev/mapper/oss_vg-optlog_vol:Inodes that were part of a corrupted orphan linked list found.
    [3.118363]systemd-fsck[597]:/dev/mapper/oss_vg-optlog_vol:UNEXPECTED INCONSISTENCY;RUN fsck MANUALLY.
    [3.119977]systemd-fsck[597]:/dev/mapper/oss_vg-optlog_vol:(i.e.,without -a or -p options)

  2. 请参见磁盘损坏,进入维护模式手动恢复操作系统。
  3. 如果手动恢复操作系统失败,请按Ctrl+D强制尝试登录。

验证结果

检查各节点状态是否正常

检查各节点状态是否正常。

操作步骤
  1. 在服务部署系统主菜单中选择“部署资源 > 服务器”。

    系统显示“服务器”页面。

  2. 在服务器列表中检查各节点的状态。

    • 如果“状态”为,表示节点状态正常。
    • 如果“状态”为,请联系技术支持工程师协助解决。

检查进程状态是否正常

故障恢复后,需检查虚拟机进程的运行状态。

操作步骤
  1. sopuser用户通过SSH方式登录regionAlias-ManageOne-Deploy01节点。

    默认密码:D4I$awOD7k。

  2. 执行以下命令切换到ossadm用户。

    su - ossadm

    默认密码:ZJE%JLq5qx。

  3. 执行以下命令检查进程状态:

    . /opt/oss/manager/bin/engr_profile.sh

    ipmc_adm -cmd statusapp

    回显信息显示如下:

    Process Name                     Process Type                 App Name                     Tenant Name  Process Mode  IP               PID     Status
    mohawiswebsite-3-0               mohawiswebsite               MOHawisWebsite               Product      cluster       192.168.33.25    11958   RUNNING
    moresourcemgmtservice-3-0        moresourcemgmtservice        MOResourceMgmtService        Product      cluster       192.168.33.25    11901   RUNNING
    apimlb-3-0                       apimlb                       APIMLBService                Product      critical      192.168.33.25    -       STOPPED

    . /opt/oss/manager/bin/engr_profile.sh

    ipmc_adm -cmd statusbus

    回显信息显示如下:

    Process Name              Process Type              App Name                  Tenant Name  IP               PID    Status  
    icagent-0-0               icagent                   ICProbeAgent              manager      10.185.191.110   10704  RUNNING 
    ir-0-0                    ir                        BusService                manager      10.185.191.110   8737   STOPPED
    dr-0-0                    dr                        BusService                manager      10.185.191.110   8486   RUNNING 
    talcapp-0-0               talcapp                   
    ......
    说明:
    • App Name列表示微服务名称。
    • Status列表示进程的运行状态:RUNNING为运行,STOPPED为停止。
    查看所有进程的运行状态是否为“RUNNING”。
    • 是,重复执行以上操作,检查其他节点的进程状态。
    • 否,请联系技术支持工程师协助解决。
    说明:
    • 针对同一个微服务,如果“Process Mode”为“single”或“critical”,有且只有一个节点的“Status”为“RUNNING”是正常的。如果“Process Mode”为“cluster”或“multi”,所有节点的“Status”为“RUNNING”是正常的。
    • 其余场景都是异常的,异常处理请联系技术支持工程师协助解决。

检查数据库状态是否正常

检查所有数据库的运行状态是否正常。

操作步骤
  1. 在服务部署系统主菜单中选择“部署 > 数据库管理 > 关系数据库”。

    系统显示“关系数据库”页面。

  2. 查看所有数据库实例的状态。

验证恢复结果

节点故障恢复后,验证ManageOne Web界面是否能够登录成功。

操作步骤
  1. 打开浏览器,在地址栏中输入http://ManageOne运维面主页的访问地址:31943,按“Enter”。

    ManageOne运维面主页的访问地址为以下节点的域名地址:

    运维面regionAlias-ManageOne-Service01和regionAlias-ManageOne-Service02节点。
    说明:

    regionAlias-ManageOne-Service01和regionAlias-ManageOne-Service02节点为运维服务节点,共用一个域名地址。regionAlias为实际规划的区域别名。

  2. 输入用户名和密码,单击“登录”。

    说明:

    如果是首次登录,需根据界面提示修改初始密码。

    以运维面节点的域名地址登录,用户名为admin

    系统显示ManageOne欢迎页面,说明节点故障恢复成功。

检查驱动状态是否正常

节点故障恢复成功后,检查驱动的运行状态是否正常。

操作步骤
  1. 使用浏览器以admin用户登录运维面节点的域名地址。

    在地址栏中输入https://ManageOne运维面主页的访问地址:31943,按“Enter”。
    说明:
    • ManageOne运维面主页的访问地址为运维服务节点的域名地址。
    • regionAlias-ManageOne-Service01和regionAlias-ManageOne-Service02为运维服务节点,共用一个域名地址。<regionAlias>为实际规划的区域别名。

  2. 选择“系统管理 > 平台配置 > 接入管理 > 驱动生命周期管理 > 驱动管理”。

    单击“驱动实例”,进入“驱动实例”页面。

  3. 检查驱动状态是否正常。

    • 如果“实例状态”为“RUNNING”,表示状态正常。
    • 否则,表示状态异常。

翻译
下载文档
更新时间:2019-08-19

文档编号:EDOC1100043088

浏览量:22138

下载量:453

平均得分:
本文档适用于这些产品

相关版本

相关文档

Share
上一页 下一页