所选语种没有对应资源,请选择:

本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

提示

尊敬的用户,您的IE浏览器版本过低,为获取更好的浏览体验,请升级您的IE浏览器。

升级

FusionCloud 6.3.1 告警&事件参考 08

评分并提供意见反馈 :
华为采用机器翻译与人工审校相结合的方式将此文档翻译成不同语言,希望能帮助您更容易理解此文档的内容。 请注意:即使是最好的机器翻译,其准确度也不及专业翻译人员的水平。 华为对于翻译的准确性不承担任何责任,并建议您参考英文文档(已提供链接)。
ALM-73401 rabbitmq服务故障

ALM-73401 rabbitmq服务故障

告警解释

rabbitmq进程可以运行,但内部出现了异常,不能正常对外提供服务。

告警属性

告警ID

告警级别

可自动清除

73401

紧急

告警参数

参数名称

参数含义

定位信息

实例名:产生告警的服务所在的实例名。

附加信息

  • 主机名:产生告警的主机名。
  • 主机ID:产生告警的主机ID。
  • 详情:告警的详细信息。

对系统的影响

此告警产生,部分业务将无法收发消息,进而造成业务无法正常进行。

可能原因

主备rabbitmq节点在相近时刻发生了多次重启。

处理步骤

请参考混合云场景识别章节区分当前告警场景。如果是混合云场景,请参考下面“混合云场景”节点的处理步骤进行处理;如果不是混合云场景,请参考下面“非混合云场景”节点的处理步骤进行处理。

非混合云场景

  1. 参考《FusionCloud 6.3.1 扩容指南》中“调整RabbitMQ的内存水位线”章节,检查内存水位线配置是否正确。

    • 是,执行3
    • 否,请根据本步骤提供的参考章节,调整内存水位线配置,执行2

  2. 等待10分钟,查看告警是否清除。

    • 是,处理完毕。
    • 否,执行3

  3. 使用PuTTY,通过External OM平面IP地址登录OpenStack首节点。

    默认帐号:fsp,默认密码:“Huawei@CLOUD8”。

    系统同时支持密码和公私钥对身份进行认证,如果使用公私钥对进行登录认证请参见使用PuTTY通过公私钥对认证方式登录节点

    说明:
    External OM平面IP地址请参考软件安装阶段FusionCloud Deploy导出的参数信息汇总文件《xxx_export_all.xlsm》的“FCD生成的LLD”页签搜索对应参数名称获取。不同场景参数名称如下所示:
    • Region Type I场景级联层:Cascading-ExternalOM-Reverse-Proxy,被级联层:Cascaded-ExternalOM-Reverse-Proxy。
    • Region Type II和Type III场景:ExternalOM-Reverse-Proxy。

  4. 执行以下命令,并按提示输入“root”用户的密码,切换至“root”用户。

    su - root

    默认密码:“Huawei@CLOUD8!”。

  5. 执行以下命令,防止系统超时退出。

    TMOUT=0

  1. 导入环境变量,具体操作请参见导入环境变量
  2. 获取组件信息。

    • 如果在告警台出现该告警。可在告警信息的附加信息中,获取发生故障的主机名称。例如主机名=XXX
    • 如果在FusionSphere OpenStack安装部署界面,执行“运维 > 系统检查”时,在检查rabbitmq服务状态的结果中提示参见该文档。可在检查结果中获取发生故障的主机名字。例如‘location’:{‘XXX’},则主机名为XXX

      运行命令:cps host-template-instance-list XXX | grep rabbitmq 从执行结果中得到AAA.BBB的组件信息,例如rabbitmq.rabbitmq。

  3. 查询可疑进程数量。

    重复执行3~5,登录到7中查询到的主机。

    执行命令:/usr/local/lib/rabbitmq/sbin/rabbitmqctl eval 'rabbit_diagnostics:maybe_stuck().',并查看返回结果。

    回显如下类似信息:

    There are 1122 processes.
    Investigated 0 processes this round, 5000ms
    to go.
    ……
    Investigated 0 processes this round, 500ms
    to go.
    Found 0 suspicious processes.
    ok 
    • 如果回显中出现类似"Found XXX suspicious processes."的提示信息,请重复执行该命令3次,查看是否每次都能出现该提示信息。
      • 是,执行9
      • 否,执行10
    • 如果命令超过1分钟未执行完成或者回显中未出现类似"Found XXX suspicious processes."的提示信息,请执行10

  4. 等待10分钟,查看告警是否清除。

    • 是,处理完毕。
    • 否,执行10

  5. 请联系技术支持工程师协助解决。

混合云场景

  1. 参考《FusionCloud 6.3.1 扩容指南》中“调整RabbitMQ的内存水位线”章节,检查内存水位线配置是否正确。

    • 是,执行3
    • 否,请根据本步骤提供的参考章节,调整内存水位线配置,执行2

  2. 等待10分钟查看告警是否清除。

    • 是,处理完毕。
    • 否,执行3

  3. 参考如何登录混合云的CloudGateway管理节点,登录cloudgateway的管理节点。
  4. 执行以下命令,导入环境变量。

    source set_env

    此处请输入“2”,输入用户名cps_admin,默认密码是FusionSphere123。

  5. 执行以下命令,获取组件信息。

    cps host-template-instance-list {host_name}| grep rabbitmq

    其中,host_name为告警附加信息中的主机名。从执行结果中得到AAA.BBB的组件信息,例如rabbitmq.rabbitmq。

  6. 查询可疑进程数量。

    执行3登录到5中查询到的主机。

    执行命令:/usr/local/lib/rabbitmq/sbin/rabbitmqctl eval 'rabbit_diagnostics:maybe_stuck().',并查看返回结果。

    回显如下类似信息:

    There are 1122 processes.
    Investigated 0 processes this round, 5000ms
    to go.
    ……
    Investigated 0 processes this round, 500ms
    to go.
    Found 0 suspicious processes.
    ok 
    • 如果回显中出现类似"Found XXX suspicious processes."的提示信息,请重复执行该命令3次,查看是否每次都能出现该提示信息。
      • 是,执行7
      • 否,执行8
    • 如果命令超过1分钟未执行完成或者回显中未出现类似"Found XXX suspicious processes."的提示信息,请执行8

  7. 等待10分钟,查看告警是否清除。

    • 是,处理完毕。
    • 否,执行8

  8. 请联系技术支持工程师协助解决。

参考信息

无。

翻译
下载文档
更新时间:2019-08-16

文档编号:EDOC1100043141

浏览量:120458

下载量:276

平均得分:
本文档适用于这些产品
相关文档
相关版本
Share
上一页 下一页