所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

eSight V300R009C00 维护指南 11

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
系统运行常见故障的处理

系统运行常见故障的处理

某一台服务器异常重启或关机

现象描述

eSight可用,主用服务器执行状态查看,无法获取备用服务器信息。备用服务器无法登录。

HAMode                                                                            
double                                   
                                         
NodeName  HostName        HAVersion       StartTime    HAActive        HAAllResOK  HARunPhase          
ha1       eSightServer40  V100R001C01     2017-09-16   active          normal      Actived                     
                                         
NodeName  ResName         ResStatus       ResHAStatus  ResType        
ha1       MySQL           Active_normal   Normal       Active_standby 
ha1       NMSServer       Normal          Normal       Single_active  
ha1       RMFloatIp       Normal          Normal       Single_active  

可能原因

  • 人工重启或关闭高可用性系统中的一台服务器。
  • 系统异常导致一台服务器重启或关闭。

处理步骤

  1. 联系技术支持人员检查eSight系统备用服务器所在虚拟机的状态。

    • 如果备用服务器已启动,重新在主用服务器执行双机状态查看。等待双机连接后,系统会自动修复,不需要人工处理。
      HAMode                                                                            
      double                                   
                                               
      NodeName  HostName        HAVersion       StartTime    HAActive        HAAllResOK  HARunPhase          
      ha1       eSightServer40  V100R001C01     2017-09-16   active          normal      Actived             
      ha2       eSightServer46  V100R001C01     2017-09-16   standby         normal      Deactived           
                                               
      NodeName  ResName         ResStatus       ResHAStatus  ResType        
      ha1       MySQL           Active_normal   Normal       Active_standby 
      ha1       NMSServer       Normal          Normal       Single_active  
      ha1       RMFloatIp       Normal          Normal       Single_active  
      ha2       MySQL           Standby_normal  Normal       Active_standby 
      ha2       NMSServer       Stopped         Unknown      Single_active  
      ha2       RMFloatIp       Stopped         Normal       Single_active  
    • 如果备用服务器处于关机状态,需要手工启动备用服务器。服务器启动后系统会自动修复,不需要人工处理。
    • 如果虚拟机处于异常状态,联系技术支持人员定位。

状态查询无法获取对端信息

现象描述

eSight可用,登录主备用服务器查看状态,但无法获得备用服务器信息。备用服务器也无法获取主用服务器信息。

HAMode                                                                            
double                                   
                                         
NodeName  HostName        HAVersion       StartTime    HAActive        HAAllResOK  HARunPhase          
ha1       eSightServer40  V100R001C01     2017-09-16   active          normal      Actived                     
                                         
NodeName  ResName         ResStatus       ResHAStatus  ResType        
ha1       MySQL           Active_normal   Normal       Active_standby 
ha1       NMSServer       Normal          Normal       Single_active  
ha1       RMFloatIp       Normal          Normal       Single_active  

可能原因

  • 主备用服务器心跳通信中断。
  • 互信关系失效

处理步骤

  1. 收集安装规划中eSight两台服务器的心跳IP地址。
  2. 在其中一台服务器上执行以下命令验证是否能连接对端心跳IP地址。

    # ping 对端心跳IP地址

    • 如果通信中断,请联系FusionSphere管理员定位网络问题,处理结束。
    • 如果返回结果如图3-11所示,心跳通信连接正常。继续进行步骤3
      图3-11 通信连接

  3. 参考告警“ALM-316010197 OMMHA双机文件同步”进行失败处理,重新建立互信。
  4. 重新进行双机状态查询。

    • 如果状态恢复正常,处理结束
    • 如果依然存在异常,联系华为技术支持工程师处理。

某一台服务器系统或硬盘损坏

现象描述

eSight可用,主用服务器执行状态查看,无法获取备用服务器的状态。备用服务器无法登录,重启后报读盘或系统异常。

HAMode                                                                            
double                                   
                                         
NodeName  HostName        HAVersion       StartTime    HAActive        HAAllResOK  HARunPhase          
ha1       eSightServer40  V100R001C01     2017-09-16   active          normal      Actived                     
                                         
NodeName  ResName         ResStatus       ResHAStatus  ResType        
ha1       MySQL           Active_normal   Normal       Active_standby 
ha1       NMSServer       Normal          Normal       Single_active  
ha1       RMFloatIp       Normal          Normal       Single_active  

可能原因

双机中的某一台出现操作系统或硬盘损坏。

处理步骤

  1. root用户登录主用服务器。
  2. 停止主用服务器文件同步任务。

    # crontab -r -u ossuser

  3. 停止主用服务器上的OMMHA软件。

    1. 切换到ossuser用户。

      # su ossuser

    2. 执行以下命令停止OMMHA软件:

      > cd /opt/ommha/ha/bin

      > ./stop.sh

      > exit

  4. 重新安装备用服务器。根据异常前的eSight版本,安装对应的基线版本。

    • 全镜像安装场景:

      安装方法根据需要的安装场景,请参考eSight产品文档中的“安装与调测 "不同场景下的安装指南。

      不需要执行“ 连接主备服务器”。

    • 全新安装场景:
      安装方法根据需要的安装场景请参考eSight产品文档中的“安装与调测 "不同场景下的安装指南。操作执行到上传安装软件结束即可,接下来安装eSight与原安装流程有差异。以本地双机为例,
      1. 以root用户登录备用服务器。
      2. 执行如下命令进行单机安装。

        # cd /opt/install

        # mv install.sh single.sh

        # chmod u+x single.sh

        # ./single.sh

      3. 根据提示选择双机类型:本地双机(1)。
        ##################################################
        Welcome to eSight installation & configuration Wizard
        ##################################################
        Please select HA type, 1(local-HA)  2(remote-HA):
        >1
      4. 输入本地服务器的系统IP地址、心跳IP地址和浮动IP地址。
        Please input local system ip address:
        >10.137.97.16
        Please input local heartbeat ip address:
        >10.9.0.16
        Please input float ip address:
        >10.137.97.15
        Enter 'y' to apply the setting of South IP Address or 'n' to ignore (y/n):
        >n
      5. 输入对端服务器的系统IP地址和心跳IP地址。
        Please input remote system ip address:
        >10.137.97.17
        Please input remote heartbeat ip address:
        >10.9.0.17
      6. 确认配置信息。
        Please confirm the following configurations...
        ****************************************
                       local system ip
                                 10.137.97.16
                       local heartbeat ip
                                 10.9.0.16
                       float ip
                                 10.137.97.15
                       remote system ip
                                 10.137.97.17
                       remote heartbeat ip
                                 10.9.0.17
        Enter 'y' to apply these values and proceed to the next step, or 'n' to return to make any changes (y/n):y
      7. 根据提示输入对端服务器的“root”用户密码。
        Please input remote root password: 
      8. 系统显示如下信息,表示单机安装操作执行成功。
        begin to check local parameters... 
        check parameters finish 
        begin to install ha... 
        enter force-installation mode... 
        install ha successfully. 
        begin to install eSight... 
        eSight install finish. 
        begin to config local MySQL... 
        config MySQL finish. 
      9. 按照“安装与调测 本地高可用性场景安装指南下的“安装eSight网管系统(全新安装场景)”执行安装好eSight后的其他操作。

        如果您已安装虚拟资源管理组件,请参见“操作指南 > 虚拟资源管理 > 资源接入 > 单个添加虚拟资源 >

        配置FusionSphere Openstack域名与IP地址映射”章节完成后续操作。

  5. 在主用服务器,执行“连接主备用服务器”。

    本地双机的连接方法异地双机的连接方法分别参考产品文档中的“安装与调测 “不同场景下的“连接主备用服务器”章节

  6. 恢复文件同步任务。

    在主用服务器上以root用户执行以下命令:

    # echo "*/2 * * * * /bin/sh /opt/eSight/mttools/ha/filecopy/doSync.sh filesync_with_pd.sh EXCLUDE" > /tmp/cro.ossuser

    # crontab -u ossuser /tmp/cro.ossuser

    # rm /tmp/cro.ossuser

  7. 申请并重新导入License。

    新装虚拟机的UUID已经变更,会导致原有License ESN信息与服务器不匹配,请参考产品文档中“参考 > eSight告警参考 > ALM-999999995 License不合法”处理步骤操作。

双机系统或硬盘损坏

现象描述

eSight不可用,两台服务器都不能登录,启动都会报读盘或操作系统异常。

可能原因

两台服务器都出现操作系统或硬盘损坏。

处理步骤

通过故障前定期远程备份、故障后重装虚拟机恢复已备份数据来应对。

  1. 远程备份详细操作指导 “操作与维护 > 维护指南 > 备份与恢复 > 备份恢复操作”。
  2. 重新安装两台服务器。根据异常前的eSight版本,安装对应的基线版本。

    安装方法根据需要的安装场景,请参考产品文档中“安装与调测 ”的对应场景指导。

  3. 如果故障前eSight安装了补丁,请参考对应补丁的《补丁安装指导书》安装eSight补丁,确保eSight当前补丁版本和故障前补丁版本一致。
  4. 停止双机的OMMHA服务。

    请参考产品文档中的“安装与调测 ”不同场景下的“ 附录 > eSight常用操作 > 停止eSight”。

  5. 在主用服务器执行恢复数据。

    详细操作指导 “操作与维护 > 维护指南 > 备份与恢复 > 备份恢复操作”。

  6. 连接主备服务器。

    请参考产品文档中的“安装与调测 ”不同场景下的“ 安装eSight网管系统(全镜像安装场景) > 连接主备用服务器”

  7. 全新安装场景执行软件安装后的其他操作。

    全镜像安装没有此步骤。

  8. 申请并重新导入License。

    新装虚拟机的UUID已经变更,会导致原有License ESN信息与服务器不匹配,请参考产品文档中“参考 > eSight告警参考 > ALM-999999995 License不合法”处理步骤操作。

备用服务器资源状态异常

现象说明

eSight可用,在主用服务器查询状态,备用服务器存在Exception资源。

HAMode                                                                           
double                                   
                                         
NodeName  HostName        HAVersion       StartTime    HAActive        HAAllResOK  HARunPhase          
ha1       eSightServer40  V100R001C01     2017-09-16   active          normal      Actived             
ha2       eSightServer46  V100R001C01     2017-09-16   standby         normal      Deactived           

NodeName  ResName         ResStatus       ResHAStatus  ResType        
ha1       MySQL           Active_normal   Normal       Active_standby 
ha1       NMSServer       Normal          Normal       Single_active  
ha1       RMFloatIp       Normal          Normal       Single_active  
ha2       MySQL           Standby_normal  Normal       Active_standby 
ha2       NMSServer       Stopped         Exception    Single_active  
ha2       RMFloatIp       Stopped         Normal       Single_active 

可能原因

  • 备用服务器出现异常。
  • 主用服务器异常后自动转备。

处理步骤

以本地双机非南北向隔离场景为例,资源分为三种:MySQL、NMSServer、RMFloatIp。
  • RMFloatIp出现异常时不需要人工干预,系统会尝试自动进行修复。
  • MySQL异常也会尝试自动修复,当不能自动清除时,参考ALM-316010198“双机主备数据复制失败”进行处理。
  • 当NMSServer存在异常时,参考如下步骤手工清除异常并验证。
    1. ossuser登录备用服务器
    2. 执行如下命令,清除异常

      > cd /opt/ommha/ha/bin

      > sh clearrmfault.sh

    3. 验证异常清除eSight是否可以正常运行。
      1. ossuser登录主用服务器
      2. 执行如下命令,去除禁止倒换限制。

        > cd /opt/ommha/ha/bin

        > sh forbiden_switch.sh cancel

      3. 执行如下命令,进行双机倒换

        > sh switchover.sh

        主备倒换成功后,资源状态如下所示。

        HAMode                                
        double                                   
                                                 
        NodeName  HostName        HAVersion       StartTime    HAActive        HAAllResOK  HARunPhase          
        ha1       eSightServer40  V100R001C01     2017-09-16   standby         normal      Deactived            
        ha2       eSightServer46  V100R001C01     2017-09-16   active          normal      Actived      
                                                 
        NodeName  ResName         ResStatus       ResHAStatus  ResType        
        ha1       MySQL           Standby_normal  Normal       Active_standby 
        ha1       NMSServer       Stopped         Normal       Single_active  
        ha1       RMFloatIp       Stopped         Normal       Single_active  
        ha2       MySQL           Active_normal   Normal       Active_standby
        ha2       NMSServer       Normal          Normal       Single_active   
        ha2       RMFloatIp       Normal          Normal       Single_active 

        如不能正常倒换,联系华为技术支持工程师处理。

    4. 等待10分钟,观察是否稳定运行,系统可用,主备不自动倒换。

      如果原备用服务器正常切换为主用服务器且稳定运行,处理结束。

FusionSphere中主机损坏情况导致的eSight服务器不可用

现象说明

eSight对应的虚拟机不能启动,检查对应的云存储正常。

可能原因

eSight的虚拟机所在FusionSphere主机损坏或异常。

处理步骤

  1. 与FusionSphere管理员确认是否平台级恢复操作已完成,确认是否需要进行单个虚拟机恢复。
  2. 在FusionSphere的反向代理首节点上,使用异地重建方法对eSight的虚拟机进行恢复。

    请参见华为云Stack NFVI解决方案文档,搜索“异地重建虚拟机”章节。

翻译
下载文档
更新时间:2019-11-22

文档编号:EDOC1100011879

浏览量:31571

下载量:264

平均得分:
本文档适用于这些产品

相关版本

相关文档

Share
上一页 下一页