故障处理
维护工程师必读
故障处理注意事项
维护工程师开展故障定位和处理工作前,请仔细阅读并遵循以下事项:
- 发生故障时请先评估是否为紧急故障,是紧急故障请使用预先制定的紧急故障处理方法尽快恢复故障模块,进而恢复业务。
- 严格遵守操作规程和行业安全规程,确保人身安全与设备安全。
- 更换和维护设备部件过程中,要做好防静电措施,佩戴防静电腕带。
- 在故障处理过程中遇到的任何问题,应详细记录各种原始信息。
- 所有的重大操作,如重启设备、擦除数据库等均应作记录,并在操作前仔细确认操作的可行性,在做好相应的备份、应急和安全措施后,方可由有资格的操作人员执行。
故障求助方式
华为企业业务技术支持网站
通过华为企业业务技术支持网站https://support.huawei.com/enterprise/,您可以:
- 搜索故障案例,帮助您找到问题解决的思路和方法。
- 在技术论坛中发帖寻求帮助,有在线专家或同行帮您解答。
联系技术支持人员
当您的故障无法自行解决时,还可以联系服务提供商以获取技术支持。
提前准备好设备信息、故障现象、日志等材料,将有助于准确定位故障原因。
故障信息收集
采集日志
采集业务日志
业务日志采集提供系统默认或用户自定义采集模板,供运维人员在发生系统故障时按需采集相关日志、数据库表等信息并进行分析和定位。
- 在iMaster NCE-Campus管理面主菜单中选择 。
- 在“数据采集”页面,类似如下截图。参见表3-127和表3-128完成相关操作。表3-127 场景采集
操作类别
操作步骤
按故障场景采集
- 选择“按故障场景采集”页签,选择和故障现象匹配的场景。
可查询关键字或直接在导航树上选择故障场景。
- 选择起止时间,单击“开始采集”进行数据采集。按照界面指引完成相关操作。
按微服务采集
- 选择“按微服务采集”页签,选择一个或者多个需要采集的服务。可查询关键字或直接选择服务。
- 选择起止时间,单击“开始采集”进行数据采集。按照界面指引完成相关操作。
按目录采集
- 选择“按目录采集”页签,选择需要采集的文件类型,输入需要采集的文件路径。
- 新增一条或多条自定义采集项。
- 选择起止时间,单击“开始采集”进行数据采集。按照界面指引完成相关操作。
表3-128 其它操作操作类别
操作步骤
重现采集
“重现采集”为发生故障之后,在复现故障的过程中采集复现故障过程的数据。
- 选择采集场景之后,将“是否重现采集”设置为“是”,选择重现超时时长。说明:
所有采集场景均支持“重现采集”,“重现超时时长”为设定本次复现最长时间,如果复现时长达到“重现超时时长”,则自动结束采集任务。
- 单击“开始复现”复现故障。
- 复现完成之后,需在所选择的“重现超时时长”以内单击“结束复现”进行数据采集。否则重现采集失败,需要重新开始。按照界面指引完成相关操作。
下载采集结果
- 建议使用Google Chrome浏览器下载结果文件,并且设置如下。
单击Google Chrome浏览器右上角的“
自定义及控制 > 设置 > 高级”,在“下载内容”模块中将“下载前询问每个文件的保存位置”设置为关闭状态。
- 数据采集完成后,根据实际情况选择如下操作。
- 当各节点的状态为“完成”时,单击“结果下载”。当首次下载多个结果文件时,Google Chrome浏览器左上角会弹出“下载多个文件”的提示框,单击“允许”。依次下载即可。
- 所有节点:单击“下载文件”处右边
按钮可下载所有节点的结果文件。
- 单个节点:单击某个节点所在行后面
按钮可下载该节点的结果文件。
- 所有节点:单击“下载文件”处右边
- 当界面提示出现“OMP磁盘空间不足...”时,说明当前OMP节点"/opt"下的磁盘空间小于5GB。请到各节点“/opt/backup/hfs/dfs/logcollect”路径中下载采集结果。
- 当某个节点的状态为“失败”时,说明此节点"/opt"下的磁盘空间小于5GB,当前无法采集数据,需清理磁盘空间再采集。
- 当某个节点的状态为“异常”时,根据界面指引完成操作。
- 当各节点的状态为“完成”时,单击“结果下载”。当首次下载多个结果文件时,Google Chrome浏览器左上角会弹出“下载多个文件”的提示框,单击“允许”。依次下载即可。
- 选择“按故障场景采集”页签,选择和故障现象匹配的场景。
采集安全日志
以安全日志为例,介绍查看和导出日志的操作方法。
- 使用admin帐号登录iMaster NCE-Campus。
- 在主菜单中选择“安全日志”页签中查看日志详情。 ,在
- 单击“导出”,根据浏览器提示将导出的日志文件保存到本地。
常见故障处理
操作系统故障
系统时间与NTP时间不一致
现象描述
- 服务器操作系统时间与NTP(Network Time Protocol)时钟源的时间不一致,无法从NTP时钟源同步时间。
- 在管理面主菜单中选择“维护 > 时间管理 > 配置NTP”,在“配置NTP”页面中,NTP服务器的时间同步状态为“失效”。
- 如果管理面的部署模式是集群模式,登录管理面时,用户被频繁退出,回到登录页面。
可能原因
- 网络故障。
- NTP时钟源的时间发生跳变。
前提条件
- 已获取待修改时间节点的sopuser、ossadm和root用户的密码。
- 已获取主用NTP时钟源的IP地址。
- 对于异地容灾场景,需删除主备站点间的容灾关系,具体操作请参见《系统维护与监控(管理面)》中的“删除异地容灾系统”章节。
操作须知
时间同步过程中需要重启待修改时间节点的产品服务和数据库,请在业务量低的时期执行以下操作。
处理步骤
强制同步时区时间的方法分为界面方式和手工方式两种,使用界面方式执行强制同步的操作后,系统会缓慢调整同步时间,不会发生时间跳变;使用手工方式执行强制同步操作后,系统立即强制同步时间,会发生时间跳变,时间跳变对时间要求较高的功能会造成影响(如:备份恢复功能)。请根据实际情况选择适合的方式进行时区时间的同步方式。
- 界面方式
- 登录管理面,具体操作请参见登录管理面。
- 在管理面主菜单中选择“维护 > 时间管理 > 配置时区时间”。
- 在“配置时区时间”界面,单击“强制同步”。
如果强制同步时区时间后,还需要做其他需要重启产品服务或产品数据库的配置操作,请取消选中“警告”对话框中的“强制同步时区时间完成后自动启动产品数据库和产品服务”,则强制同步完成后不会自动启动产品数据库和产品服务,避免产品服务或产品数据库被多次重启。
对于异地容灾场景,如果强制同步的时区时间是备站点的时区时间,请取消选中“警告”对话框中“强制同步时区时间完成后自动启动产品数据库和产品服务”,避免备站点上的产品服务被重启,造成双主运行的异常状态。
- 在主菜单选择“系统 > 任务列表”,等待“强制同步时区时间”任务执行成功。
- 执行完强制同步时区时间操作后等待大约1~15分钟,查看服务器操作系统时间与NTP时钟源的时间是否精确一致。
- 是,则故障已恢复。
- 否,请联系华为技术支持工程师定位处理。
- 对于异地容灾场景,需建立主备站点的容灾关系,具体操作请参见《系统维护与监控(管理面)》中的“配置异地容灾系统”章节。
- 手工方式
- 使用PuTTY工具以sopuser用户通过SSH方式登录待修改时间节点。获取节点IP地址的方法请参见如何查找节点对应的IP地址。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令停止该节点的服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd stopnode
当管理面应用程序和数据处于故障,未恢复状态时,请跳过此步骤。
系统提示如下类似回显信息,所有进程都提示“success”,则说明该节点所有服务停止成功,否则请联系华为技术支持工程师。
... Stopping process mcdrrouteragent-1-0 ... success Stopping process testdummyagent-1-0 ... success Stopping process uniepservice-1-0 ... success ...
- 执行以下命令,切换到root用户。
> su - root
Password:root用户的密码
- 执行以下命令,停止待修改时间节点的NTP服务。
# service ntpd stop
- 执行以下命令,从NTP时钟源同步系统时间。
# ntpdate 时钟源IP地址
# timedatectl set-local-rtc 0
# hwclock --systohc -u
# echo $?
当回显为0表示从NTP时钟源同步系统时间成功。否则,联系华为技术支持工程师。
0
命令中的“时钟源IP地址”请替换为实际规划的IP地址,若待修改时间的服务器为管理节点,则替换为NTP时钟源的IP地址;若为产品节点,则替换为OMP_01节点的IP地址。
- 执行以下命令,查看当前服务器的时间,并查看是否与NTP时钟源的时间精确一致。
# date
系统回显如下类似信息:
Tue May 26 19:46:12 CST 2019
- 若待修改时间的为管理节点,则节点的时间需与NTP时钟源时间精确一致。
- 若待修改时间的为产品节点,则节点的时间需与管理节点的时间精确一致。
如果时间精确一致,执行8,否则请联系华为技术支持工程师。
- 执行以下命令,启动待修改节点的NTP服务。
# service ntpd start
- 执行以下命令,退出root用户。
# exit
- 执行以下命令,启动节点上的服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd startnode
当管理面应用程序和数据处于故障,未恢复状态时,请跳过此步骤。
系统提示如下类似回显信息,所有进程都提示“success”,则说明该节点所有服务启动成功,否则请联系华为技术支持工程师。
... Starting process testdummyagent-1-0 ... success Starting process mcdrrouteragent-1-0 ... success Starting process mcir-1-0 ... success ...
- 对于异地容灾场景,需建立主备站点的容灾关系,具体操作请参见《系统维护与监控(管理面)》中的“配置异地容灾系统”章节。
日志损坏导致IR/ER/BER启动失败
现象描述
IR/ER/BER启动失败,查看ER/IR/BER的日志权限属主属性变为“????”,表明日志文件损坏。
如/opt/oss/log/{tenant}/ERService目录下ER日志权限属主属性变为“????”。
rw-------.1 ossuser ossgroup 2803315 Jan 9 15:53 bus_adm.script.log rw-r-----.1 ossuser ossgroup 0 Jan 3 16:22 cmd.check_backenderservice.sh.log rw-------.1 ossuser ossgroup 168 Jan 3 16:22 cmd.post_install_backenderservice.sh.log rwx------.2 ossuser ossgroup 4096 Jan 9 15:50 nginx ????????? ? ? ? ? ? oss.bus_adm.script.trace rw-------.1 ossuser ossgroup 1380 Jan 3 16:22 oss.busdeploy.trace
可能原因
磁盘空间满导致日志文件损坏,导致IR/ER/BER启动失败。
处理步骤
由于日志损坏导致IR/ER/BER启动失败的处理方法相同,这里以ERService举例进行说明。
- 使用PuTTY工具以sopuser用户通过SSH方式登录ERService服务所在节点。获取服务所在节点的IP地址的方法请参见如何查找服务所在节点的IP地址。
- 执行以下命令切换到root用户。
su - root
Password:root用户的密码
- 执行以下命令,复制日志文件夹。
cd /opt/oss/log/{tenant}
cp -r ERService ERService1
此命令执行成功后会将所有未损坏的文件复制到新文件夹ERService1中。
- 执行以下命令移走原文件夹。
mv ERService ERService_bak
- 执行以下命令将文件夹ERService1移回原文件夹。
mv ERService1 ERService
- 执行以下命令修改ERService文件夹的属主属性。
chown -R ossuser:ossgroup ERService
- 执行以下命令,退出root用户。
exit
数据库故障
介绍GaussDB 100数据库异常的修复方法。其他类型数据库异常的修复请联系华为技术支持工程师。
背景信息
在管理面主菜单中选择“产品 > 系统监控”,在“系统监控”页面的“关系数据库”页签中,查看数据库实例的角色。
- 数据库实例所在行的“角色”为“Master”时,说明数据库的实例为主实例。
- 数据库实例所在行的“角色”为“Slave”时,说明数据库的实例为备实例。
- 数据库实例所在行的“角色”为“--”时,说明数据库的实例为单实例。
当数据库实例出现异常时,建议先修复该数据库实例异常。如果由于故障叠加造成的数据库多实例的故障,可能会导致数据库实例出现双主,当一个数据库实例降备后,主备数据库实例数据自动同步导致数据丢失。
产品单数据库实例异常
现象描述
在管理面主菜单中选择“产品 > 系统监控”,在“系统监控”页面左上方光标移至选择对应的产品。在“关系数据库”页签中,数据库实例的“状态”为“未运行”或“未知”。
对于异地容灾场景,本节操作只适用于修复主站点的异常,若需修复备站点的异常,请参见修复产品容灾状态。
可能原因
- 数据库实例所在节点可能被停止。
- 数据库实例被人为停止。
- 数据库进程异常后重启失败。
- 数据库数据损坏。
处理步骤
- 对于异地容灾场景,需分离主备站点产品,具体操作请参见《系统维护与监控(管理面)》中的“分离主备站点产品”章节。
- 检查数据库实例所在服务器是否停止。
- 检查节点是否故障,具体操作请参见节点与服务故障。
- 是,请参见对应章节修复节点故障。
- 否,执行4。
- 检查数据库实例的“状态”。
- 执行以下操作,检查“DBAgent”和“DeployAgent”服务。
- 使用PuTTY工具以sopuser用户通过SSH方式登录故障数据库实例所在节点,获取数据库实例所在节点的IP地址请参见如何查找数据库实例所在节点的IP地址。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,检查“DBAgent”服务的状态。
> cd /opt/oss/manager/agent/bin
> bash ipmc_adm -cmd statusapp -tenant manager
Process Name Process Type App Name Tenant Name Process Mode IP PID Status mcfebservice-0-0 dbagentapp DBAgent manager cluster 10.10.10.1 80125 RUNNING ... ... [All Processes: 17] [Running: 17] [Not Running: 0]
- 系统回显信息中,若“DBAgent”服务的状态为“RUNNING”则代表服务为启动状态。
- 系统回显信息中,若“DBAgent”服务的状态为“NOT RUNNING”则代表服务为停止状态,请执行以下命令启动服务。
> bash ipmc_adm -cmd startapp -app DBAgent -tenant manager
系统回显如下类似信息时,说明“DBAgent”服务启动成功。否则请联系华为技术支持工程师。
Starting process dbagentapp-0-0 ... success
- 执行以下命令,检查“DeployAgent”服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd statusmgrossadm 28228 1 0 10:37 ? 00:01:53 ... ... /opt/oss/manager/apps/DeployAgent-903.4.63/tools/pyscript/deployagent/DeployAgent.pyc -DNFW=deployagent ossadm 28188 1 0 10:37 ? 00:00:09 ... ...
- 系统回显信息中,若存在“deployagent”字样则代表服务为启动状态。
- 系统回显信息中,若不存在“deployagent”字样则代表服务为停止状态。请执行以下命令启动服务。
> bash ipmc_adm -cmd startmgr -app DeployAgent
系统回显如下类似信息时,说明“DeployAgent”服务启动成功。否则请联系华为技术支持工程师。
============================ Starting management processes... Starting deployagent... …… start mcwatchdog... success ============================ Starting management processes is complete.
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下操作,修复单数据库实例。
> cd /opt/oss/manager/apps/UniEPService/tools/DB_Recovery
> bash Single_DB_Recovery.sh 实例名称
“实例名称”可在“产品 > 系统监控”页面的“关系数据库”页签中查看。
以数据库实例名称“xdj-1-1034”为例,系统回显如下信息时,说明该数据库实例恢复成功;否则请联系华为技术支持工程师。... The result: xdj-1-1034: success [2018-12-22 02:14:37] [185770] Recovery DB-Instance Success. You need to recovery the product data.
- 恢复产品数据,具体操作请参见《系统维护与监控(管理面)》中的“恢复产品数据”章节。
- 登录管理面查看数据库实例是否恢复正常。
- 如果数据库实例的“状态”为“正在运行”,则故障已恢复,结束本章节。
- 如果数据库实例的“状态”为“未运行”或“未知”,则可能是数据库应用程序异常,请执行11。如果恢复数据库应用程序和数据库实例后仍然异常,请联系华为技术支持工程师。
- 恢复数据库应用程序,具体操作请参见《系统维护与监控(管理面)》中的“恢复数据库应用程序”章节。
- 恢复数据库实例,具体操作请参见6~10。
- 对于异地容灾场景,需连接主备站点产品,具体操作请参见《系统维护与监控(管理面)》中的“连接主备站点产品”章节。
产品备数据库实例异常
现象描述
在管理面主菜单中选择“产品 > 系统监控”,在“系统监控”页面左上方光标移至选择对应的产品。在“关系数据库”页签中,主数据库实例的“状态”为“正在运行”且“复制状态”为“正常”,备数据库实例的“状态”为“未运行”或“复制状态”为“异常”。
对于异地容灾场景,本节操作只适用于修复主站点的异常,若需修复备站点的异常,请参见修复产品容灾状态。
可能原因
- 数据库实例所在节点可能被停止。
- 数据库实例被人为停止。
- 数据库进程异常后重启失败。
- 数据库数据损坏。
处理步骤
- 对于异地容灾场景,需分离主备站点产品,具体操作请参见《系统维护与监控(管理面)》中的“分离主备站点产品”章节。
- 检查数据库实例所在服务器是否停止。
- 可选:若主备数据库在30分钟内发生过倒换,请执行以下命令手工清除对应的倒换记录,允许再次倒换。
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMP_01节点,具体操作请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,清除数据库实例倒换时间。
> cd /opt/oss/manager/apps/DBHASwitchService/bin
> bash switchtool.sh -cmd del-failover-time -instid 待清除倒换记录的数据库实例名称
系统回显如下信息,表示清除数据库实例倒换记录成功。Successful.
- 检查节点是否故障,具体操作请参见节点与服务故障。
- 是,请参见对应章节修复节点故障。
- 否,执行5。
- 检查数据库实例的“状态”。
- 执行以下操作,检查“DBAgent”和“DeployAgent”服务。
- 使用PuTTY工具以sopuser用户通过SSH方式登录故障数据库实例所在节点,获取数据库实例所在节点的IP地址请参见如何查找数据库实例所在节点的IP地址。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,检查“DBAgent”服务的状态。
> cd /opt/oss/manager/agent/bin
> bash ipmc_adm -cmd statusapp -tenant manager
Process Name Process Type App Name Tenant Name Process Mode IP PID Status mcfebservice-0-0 dbagentapp DBAgent manager cluster 10.10.10.1 80125 RUNNING ... ... [All Processes: 17] [Running: 17] [Not Running: 0]
- 系统回显信息中,若“DBAgent”服务的状态为“RUNNING”则代表服务为启动状态。
- 系统回显信息中,若“DBAgent”服务的状态为“NOT RUNNING”则代表服务为停止状态,请执行以下命令启动服务。
> bash ipmc_adm -cmd startapp -app DBAgent -tenant manager
系统回显如下类似信息时,说明“DBAgent”服务启动成功。否则请联系华为技术支持工程师。
Starting process dbagentapp-0-0 ... success
- 执行以下命令,检查“DeployAgent”服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd statusmgrossadm 28228 1 0 10:37 ? 00:01:53 ... ... /opt/oss/manager/apps/DeployAgent-903.4.63/tools/pyscript/deployagent/DeployAgent.pyc -DNFW=deployagent ossadm 28188 1 0 10:37 ? 00:00:09 ... ...
- 系统回显信息中,若存在“deployagent”字样则代表服务为启动状态。
- 系统回显信息中,若不存在“deployagent”字样则代表服务为停止状态。请执行以下命令启动服务。
> bash ipmc_adm -cmd startmgr -app DeployAgent
系统回显如下类似信息时,说明“DeployAgent”服务启动成功。否则请联系华为技术支持工程师。
============================ Starting management processes... Starting deployagent... …… start mcwatchdog... success ============================ Starting management processes is complete.
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,查询数据库实例状态。
> cd /opt/oss/manager/apps/DBAgent/bin/
> bash dbsvc_adm -cmd query-db-instance
系统提示如下类似回显信息:
DBInstanceId ... IP Port ... Role Rpl Status ... apmdbsvr-10_90_73_163-3@10_90_73_164-3 ... 10.90.73.164 32082 ... Slave Normal ... apmdbsvr-10_90_73_178-21@10_90_73_179-21 ... 10.90.73.179 32080 ... Slave Abnormal (101) ... apmdbsvr-10_90_73_178-21@10_90_73_179-21 ... 10.90.73.179 32080 ... Slave Abnormal (103) ... ...
- 执行以下命令,恢复备数据库实例。
> cd /opt/oss/manager/apps/UniEPService/tools/DB_Recovery
> bash DBSlaveInstance_Recovery.sh -instid servicedbsvr2-1-1@2-1 -tenant NCECAMPUS
-instid:数据库实例名称,其参数值可以为单个数据库实例名称或all。all表示修复该产品下所有数据库实例。
以数据库实例名称“servicedbsvr2-1-1@2-1”为例,系统回显如下信息时,说明该数据库实例恢复成功;否则请联系华为技术支持工程师。... The result: servicedbsvr2-1-1@2-1: success [2018-12-22 02:29:33] [264943] Recovery DB-Instance Success.
- 登录管理面查看数据库实例是否恢复正常。
- 如果数据库实例的“状态”为“正在运行”,“复制状态”为“正常”,则故障已恢复,结束本章节。
- 如果数据库实例的“状态”为“未运行”或“未知”,“复制状态”为“异常”,则可能是数据库应用程序异常,请执行12。如果恢复数据库应用程序和数据库实例后仍然异常,请联系华为技术支持工程师。
- 恢复数据库应用程序,具体操作请参见《系统维护与监控(管理面)》中的“恢复数据库应用程序”章节。
- 恢复数据库实例,具体操作请参见7~11。
- 对于异地容灾场景,需连接主备站点产品,具体操作请参见《系统维护与监控(管理面)》中的“连接主备站点产品”章节。
产品主备数据库实例异常
现象描述
在管理面主菜单中选择“产品 > 系统监控”,在“系统监控”页面左上方光标移至选择对应的产品。在“关系数据库”页签中,查看主备数据库实例的“状态”均为“未运行”或“未知”。
对于异地容灾场景,本节操作只适用于修复主站点的异常,若需修复备站点的异常,请参见修复产品容灾状态。
可能原因
- 数据库实例所在节点可能被停止。
- 数据库实例被人为停止。
- 数据库进程异常后重启失败。
- 数据库数据损坏。
处理步骤
- 对于异地容灾场景,需分离主备站点产品,具体操作请参见《系统维护与监控(管理面)》中的“分离主备站点产品”章节。
- 检查数据库实例所在服务器是否停止。
- 可选:若主备数据库在30分钟内发生过倒换,请执行以下命令手工清除对应的倒换记录,允许再次倒换。
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMP_01节点,具体操作请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,清除数据库实例倒换时间。
> cd /opt/oss/manager/apps/DBHASwitchService/bin
> bash switchtool.sh -cmd del-failover-time -instid 待清除倒换记录的数据库实例名称
系统回显如下信息,表示清除数据库实例倒换记录成功。Successful.
- 检查节点是否故障,具体操作请参见节点与服务故障。
- 是,请参见对应章节修复节点故障。
- 否,执行5。
- 检查数据库实例的“状态”。
- 执行以下操作,检查“DBAgent”和“DeployAgent”服务。
- 使用PuTTY工具以sopuser用户通过SSH方式登录故障数据库实例所在节点,获取数据库实例所在节点的IP地址请参见如何查找数据库实例所在节点的IP地址。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,检查“DBAgent”服务的状态。
> cd /opt/oss/manager/agent/bin
> bash ipmc_adm -cmd statusapp -tenant manager
Process Name Process Type App Name Tenant Name Process Mode IP PID Status mcfebservice-0-0 dbagentapp DBAgent manager cluster 10.10.10.1 80125 RUNNING ... ... [All Processes: 17] [Running: 17] [Not Running: 0]
- 系统回显信息中,若“DBAgent”服务的状态为“RUNNING”则代表服务为启动状态。
- 系统回显信息中,若“DBAgent”服务的状态为“NOT RUNNING”则代表服务为停止状态,请执行以下命令启动服务。
> bash ipmc_adm -cmd startapp -app DBAgent -tenant manager
系统回显如下类似信息时,说明“DBAgent”服务启动成功。否则请联系华为技术支持工程师。
Starting process dbagentapp-0-0 ... success
- 执行以下命令,检查“DeployAgent”服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd statusmgrossadm 28228 1 0 10:37 ? 00:01:53 ... ... /opt/oss/manager/apps/DeployAgent-903.4.63/tools/pyscript/deployagent/DeployAgent.pyc -DNFW=deployagent ossadm 28188 1 0 10:37 ? 00:00:09 ... ...
- 系统回显信息中,若存在“deployagent”字样则代表服务为启动状态。
- 系统回显信息中,若不存在“deployagent”字样则代表服务为停止状态。请执行以下命令启动服务。
> bash ipmc_adm -cmd startmgr -app DeployAgent
系统回显如下类似信息时,说明“DeployAgent”服务启动成功。否则请联系华为技术支持工程师。
============================ Starting management processes... Starting deployagent... …… start mcwatchdog... success ============================ Starting management processes is complete.
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,修复主备数据库实例。
> cd /opt/oss/manager/apps/UniEPService/tools/DB_Recovery
> bash Master_Slave_DB_Recovery.sh -instid dbsvr-0-1001@1-1001 -tenant NCECAMPUS
-instid:数据库实例名称,其参数值可以为单个数据库实例名称或all。all表示修复该产品下所有数据库实例。
以数据库实例名称“dbsvr-0-1001”为例,系统回显如下信息时,说明该数据库实例恢复成功;否则请联系华为技术支持工程师。... The result: dbsvr-0-1001@1-1001: success [2018-12-22 03:36:24] [175465] Recovery DB-Instance Success. You need to recovery the product data.
- 恢复产品数据,具体操作请参见《系统维护与监控(管理面)》中的“恢复产品数据”章节。
- 登录管理面查看数据库实例是否恢复正常。
- 如果数据库实例的“状态”为“正在运行”,“复制状态”为“正常”,则故障已恢复,结束本章节。
- 如果数据库实例的“状态”为“未运行”或“未知”,“复制状态”为“异常”,则可能原因是数据库应用程序异常,请执行12。如果恢复数据库应用程序和数据库实例后仍然异常,请联系华为技术支持工程师。
- 恢复数据库应用程序,具体操作请参见《系统维护与监控(管理面)》中的“恢复数据库应用程序”章节。
- 恢复数据库实例,具体操作请参见7~11。
- 对于异地容灾场景,需连接主备站点产品,具体操作请参见《系统维护与监控(管理面)》中的“连接主备站点产品”章节。
节点多次重启导致主数据库实例异常
现象描述
如果管理节点是集群场景,管理节点在30分钟之内多次重启,导致节点的主数据库实例异常,从而管理面无法正常登录。
如果产品的数据库节点是集群场景,数据库节点在30分钟之内多次重启,导致节点的主数据库实例异常。
可能原因
主数据库实例异常时,会自动进行倒换。为了保障系统稳定性,在备数据库实例运行正常的情况下,主备数据库实例在30分钟内只能进行一次倒换,但由于主数据库实例异常,在倒换过程中可能最多存在60秒的数据丢失。若在30分钟内主备数据库实例所在节点多次发生异常上下电,可能会导致主数据库实例异常。
处理步骤
主备数据库实例在30分钟内只能进行一次倒换,待节点供电稳定后等待30分钟,查看主备数据库实例是否恢复正常,即主备数据库实例“状态”为“正在运行”,“复制状态”为“正常”。如果没有恢复正常,请参见如下场景进行修复:
- 如果管理面可以登录,请参见产品备数据库实例异常检查管理面或者产品的备实例是否异常,并进行修复。
- 如果管理面不能登录,对于管理节点异常,请修复管理面,具体操作请参见共部署节点故障;对于产品数据库节点异常,请恢复主备数据库实例,具体操作请参见产品主备数据库实例异常。
数据库复制状态异常
现象描述
在管理面主菜单中选择“产品>系统监控”,在“系统监控”页面左上方光标移至选择对应的产品。在“关系数据库”页签中,数据库实例的复制状态长期处于“异常”状态。
可能原因
数据库备节点IO过高,导致数据库来不及重演,导致数据库异常。
定位思路
数据库状态异常的定位思路如图3-38所示。
- 对于异地容灾场景,需分离主备站点产品,具体操作请参见《异地容灾》中的“分离主备站点产品”章节。
- 执行以下步骤:
- 使用PuTTY工具以“sopuser”用户通过SSH方式登录异常数据库节点,获取数据库实例所在节点的IP地址请参见如何查找数据库实例所在节点的IP地址。
- 执行以下命令,切换到ossadm用户。
> su ossadm
- 执行以下命令检查日志文件大小。
> cd /opt/zenith/data/数据库实例名称/archive_log
> du –h
- 如果日志文件大小超过16G,手工执行清理脚本删除日志文件。登录iMaster NCE-Campus后台备数据库所在节点,通过执行如下命令行删除日志文件。
rm –r /opt/zenith/data/实数据库实例名称/archive_log
执行如下命令行重建实例。/usr/bin/sudo -u dbuser bash -c "source ~/.bashrc;/usr/bin/flock -ox /opt/zenith/data/数据库实例名称 -c '/opt/oss/manager/agent/DeployAgent/rtsp/python/bin/python /opt/zenith/app/bin/zctl.py -t build -D /opt/zenith/data/数据库实例名称 -P'"
数据库实例占满
现象描述
在管理面主菜单中选择“产品>系统监控”,在“系统监控”页面左上方光标移至选择对应的产品。在“关系数据库”页签中,数据库实例磁盘占用率接近100%。
可能原因
数据库实例中配置源单表过大。
处理步骤
- 清理配置源表索引。
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令切换至root用户。
> su - root
Password:root用户的密码
- 输入以下命令登录数据库控制台。
su - dbuser -c "source appgsdb.bashrc&&gsql -d nepersistentdb -U dbuser -p '`cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "nepersistentdb" | grep "port" | awk -F ':' '{print $2}' | awk -F '{' '{print $1}'`' -h `cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "nepersistentdb" | grep "ip" | awk -F ':' '{print $2}' | awk -F '"' '{print $2}'`"
提示输入dbuser用户密码:Password for user dbuser: 数据库dbuser用户密码
回显:Password for user dbuser: gsql (9.2.4) SSL connection (cipher: DHE-RSA-AES256-SHA, bits: 256) Type "help" for help. NEPERSISTENTDB=#
nepersistentdb:命令中nepersistentdb为异常数据库实例。
- 数据库控制台输入以下命令清理source、link表索引。
CREATE OR REPLACE FUNCTION delete_index_func() RETURNS void AS $func$ DECLARE tablenamerefcursor refcursor; tablename text; sql text; BEGIN BEGIN execute 'SELECT 1 FROM YANG_SCHEMA;'; EXCEPTION WHEN others THEN RAISE NOTICE 'no need to execute'; return; END; open tablenamerefcursor for execute 'select RELNAME from pg_stat_user_tables where RELNAME like ''T\_DB\_DATASTORE\_%\_SOURCE'' escape ''\'';'; loop fetch tablenamerefcursor into tablename; if found then sql = 'drop index ' || upper(tablename) || upper('_idx_path;'); BEGIN execute sql; EXCEPTION WHEN others THEN RAISE NOTICE 'sql: %',sql; END; else exit; end if; end loop; close tablenamerefcursor; open tablenamerefcursor for execute 'select RELNAME from pg_stat_user_tables where RELNAME like ''T\_DB\_DATASTORE\_%\_LINK'' escape ''\'';'; loop fetch tablenamerefcursor into tablename; if found then sql = 'drop index ' || upper(tablename) || upper('_idx_path;'); BEGIN execute sql; EXCEPTION WHEN others THEN RAISE NOTICE 'sql: %',sql; CONTINUE; END; else exit; end if; end loop; close tablenamerefcursor; return; END; $func$ LANGUAGE plpgsql; select delete_index_func();
回显如下:select delete_index_func(); NEPERSISTENTDB$# NEPERSISTENTDB$# NEPERSISTENTDB$# NEPERSISTENTDB$# CREATE FUNCTION NEPERSISTENTDB=# NOTICE: sql: drop index T_DB_DATASTORE_AAA_SOURCE_IDX_PATH; NOTICE: sql: drop index T_DB_DATASTORE_AAA_SOURCE_IDX_VALUE; NOTICE: sql: drop index T_DB_DATASTORE_INTERFACES_SOURCE_IDX_PATH; NOTICE: sql: drop index T_DB_DATASTORE_INTERFACES_SOURCE_IDX_VALUE; NOTICE: sql: drop index T_DB_DATASTORE_GLOBAL_SOURCES_LINK_IDX_PATH; DELETE_INDEX_FUNC ------------------- (1 row) NEPERSISTENTDB=# NEPERSISTENTDB=#
- 检查执行完以上命令后,异常数据库实例磁盘占用率是否仍标红。如果标红执行步骤2,否则恢复完成。
- 数据备份恢复
- 查看数据库实例数据量占用大的表。
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令切换至root用户。
> su - root
Password:root用户的密码
- 输入以下命令登录数据库控制台。
su - dbuser -c "source appgsdb.bashrc&&gsql -d nepersistentdb -U dbuser -p '`cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "nepersistentdb" | grep "port" | awk -F ':' '{print $2}' | awk -F '{' '{print $1}'`' -h `cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "nepersistentdb" | grep "ip" | awk -F ':' '{print $2}' | awk -F '"' '{print $2}'`"
提示输入dbuser用户密码:Password for user dbuser: 数据库dbuser用户密码
回显:Password for user dbuser: gsql (9.2.4) SSL connection (cipher: DHE-RSA-AES256-SHA, bits: 256) Type "help" for help. NEPERSISTENTDB=#
nepersistentdb:命令中nepersistentdb为异常数据库实例。
- 执行如下命令查看磁盘占用最多的source(格式:T_DB_DATASTORE_xxx_SOURCE)表、link(格式:T_DB_DATASTORE_GLOBAL_xxx_LINK)表。
select RELNAME,N_LIVE_TUP,N_DEAD_TUP,last_autovacuum,vacuum_count,pg_size_pretty(pg_total_relation_size('"' || relname || '"')) as totalsize,pg_size_pretty(pg_table_size('"' || relname || '"')) as tablesize, pg_size_pretty(pg_indexes_size('"' || relname || '"')) as indexsize from pg_stat_user_tables order by N_LIVE_TUP desc;
回显:
- 停止SouthboundService微服务。
- 登录管理面,进入“产品 > 系统监控”。
- 在“系统监控”页面左上方光标移至
并选择产品。
- 在“服务”页签中搜索southboundservice。
- 选中所有实例进行停止
- 备份数据库实例数据占用量大的表。
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令切换至root用户。
> su - root
Password:root用户的密码
- 执行命令备份大数据量的表到文件:/tmp/dumpTable.sql,耗时与数据量相关。例:通过执行以下命令备份T_DB_DATASTORE_INTERFACES_SOURCE表。
login_db="nepersistentdb";su - dbuser -c "source appgsdb.bashrc&&gs_dump ${login_db} -t T_DB_DATASTORE_INTERFACES_SOURCE -f /tmp/dumpTable.sql -U ossdbuser -p '`cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "${login_db}" | grep "port" | awk -F ':' '{print $2}' | awk -F ',' '{print $1}'`' -h `cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "${login_db}" | grep "ip" | awk -F ':' '{print $2}' | awk -F '"' '{print $2}'`"
nepersistentdb:命令中nepersistentdb为异常数据库实例。
提示输入ossdbuser用户密码:Password for user ossdbuser: 数据库ossdbuser用户密码
回显如下:gs_dump: total time: 176635 ms -bash: line 2: 192.168.6.17: command not found [root@xxx ~]#
- 删除数据库中备份好的数据库表。
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令切换至root用户。
> su - root
Password:root用户的密码
- 输入以下命令登录数据库控制台。
su - dbuser -c "source appgsdb.bashrc&&gsql -d nepersistentdb -U dbuser -p '`cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "nepersistentdb" | grep "port" | awk -F ':' '{print $2}' | awk -F '{' '{print $1}'`' -h `cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "nepersistentdb" | grep "ip" | awk -F ':' '{print $2}' | awk -F '"' '{print $2}'`"
提示输入dbuser用户密码:Password for user dbuser: 数据库dbuser用户密码
回显:Password for user dbuser: gsql (9.2.4) SSL connection (cipher: DHE-RSA-AES256-SHA, bits: 256) Type "help" for help. NEPERSISTENTDB=#
nepersistentdb:命令中nepersistentdb为异常数据库实例。
- 执行如下命令删除 2.b中备份的表。
drop table T_DB_DATASTORE_INTERFACES_SOURCE;
回显:NEPERSISTENTDB=# drop table T_DB_DATASTORE_INTERFACES_SOURCE; DROP TABLE NEPERSISTENTDB=#
- 恢复4.删除数据库中备份好的数据库表。中删除的表。
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令切换至root用户。
> su - root
Password:root用户的密码
- 执行如下命令将原先备份出的文件/tmp/dumpTable.sql进行恢复。
login_db="nepersistentdb";su - dbuser -c "source appgsdb.bashrc&&gsql ${login_db} -f /tmp/dumpTable.sql -U ossdbuser -p '`cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "${login_db}" | grep "port" | awk -F ':' '{print $2}' | awk -F ',' '{print $1}'`' -h `cat /opt/oss/manager/var/tenants/NCECAMPUS/containerlist.json | grep -A 200 "${login_db}" | grep "ip" | awk -F ':' '{print $2}' | awk -F '"' '{print $2}'`"
提示输入ossdbuser用户密码:Password for user ossdbuser: 数据库ossdbuser用户密码
回显:
Password for user ossdbuser: SET SET SET SET SET SET SET SET SET CREATE TABLE gsql:/tmp/dumpTable.sql:1638262: NOTICE: ALTER TABLE / ADD PRIMARY KEY will create implicit index " T_DB_DATASTORE_INTERFACES_SOURCE_PKEY" for table "T_DB_DATASTORE_INTERFACES_SOURCE" total time: 1761635 ms [root@linux ~]#
- 如不能解决,需联系技术支持工程师进行处理。
- 查看数据库实例数据量占用大的表。
节点与服务故障
管理面NCE-OMP和iMaster NCE-Campus节点服务状态未知
现象描述
登录管理面首页,NCE-OMP和iMaster NCE-Campus显示节点状态异常,服务异常。分别进入NCE-OMP和iMaster NCE-Campus系统监控页面,显示节点连接状态显示正常,服务状态显示未知,如下图所示。
可能原因
节点磁盘故障。
处理步骤
- 依次执行下表中的检查项及其检查方法,按照对应的故障排除方法修复故障节点。
导致节点服务状态异常故障的因素复杂,本节提供节点因磁盘故障导致的基本排除方法,如果按照以下操作仍然无法解决该故障,请收集故障处理过程中的信息,联系华为技术支持工程师协助解决。
序号
检查项
检查方法
故障排除方法
1
磁盘文件大小
- 在管理面选择“iMaster_NCE-Campus->故障节点->名称”查看节点IP。
- 以sopuser用户登录后台节点。
- 使用“df -h”命令查看磁盘使用率。
- 使用“ps -ef | grep /opt/oss | grep -v grep”命令查看服务进程运行状态。
- “/opt”或“/var/log/”磁盘使用率为100%,且“ps -ef | grep /opt/oss | grep -v grep”命令返回结果为空,如下图所示。
- 以“sopuser”用户登录故障节点,并切换到“root”用户。
- 进入“/opt”或“/var/log/”中磁盘满的目录。
- 执行如下命令,检查磁盘是否异常。
dd if="$(df -P /opt/ | tail -1 | awk '{print $1}')" of=/dev/zero bs=512 count=1 iflag=direct
dd if="$(df -P /var/log | tail -1 | awk '{print $1}')" of=/dev/zero bs=512 count=1 iflag=direct
返回如下图所示。若执行结果异常,请联系技术支持工程师解决磁盘异常故障。
- 执行/sbin/chkconfig ossipmc01 on命令,重启操作系统。
- 重启后执行ps -ef | grep /opt/oss | grep -v grep查看控制器服务进程是否正常,如下图所示。如果返回结果为空,请联系技术支持工程师解决。
- 以“admin”用户登录管理面,查看节点服务状态是否恢复。
节点恢复时间较长,管理面显示节点状态正常一般需要分钟,超过60分钟未恢复请联系技术支持工程师解决。
- “/opt”或“/var/log/”磁盘使用率未达到100%,且ps -ef | grep /opt/oss | grep -v grep命令返回结果为空,如下图所示。
- 以“sopuser”用户登录故障节点,并切换到“root”用户。
- 执行如下命令,检查磁盘是否异常。
dd if="$(df -P /opt/ | tail -1 | awk '{print $1}')" of=/dev/zero bs=512 count=1 iflag=direct
dd if="$(df -P /var/log | tail -1 | awk '{print $1}')" of=/dev/zero bs=512 count=1 iflag=direct
返回如下图所示。若执行结果异常,请联系技术支持工程师解决磁盘异常故障。
- 执行/sbin/chkconfig ossipmc01 on命令,重启操作系统。
- 重启后执行ps -ef | grep /opt/oss | grep -v grep查看控制器服务进程是否正常,如下图所示。如果返回结果为空,请联系技术支持工程师解决。
- 以“admin”用户登录管理面,查看节点服务状态是否恢复。
节点恢复时间较长,管理面显示节点状态正常一般需要分钟,超过60分钟未恢复请联系技术支持工程师解决。
共部署节点故障
现象描述
使用浏览器登录管理面或使用PuTTY工具登录共部署节点时,无法登录或无响应。
可能原因
- 网络故障。
- 该节点被下电。
- 操作系统损坏。
- 应用程序或数据库损坏。
处理步骤
- 导致管理节点故障的因素复杂,本节提供该故障基本的排除方法,如果按照以下操作仍然无法解决该故障,请收集故障处理过程中的信息,联系华为技术支持工程师协助解决。
- 进行故障修复时,恢复操作系统将会格式化系统分区,请谨慎操作。
- 如果使用共部署节点作为备份服务器,且该节点故障,则管理面不支持修复该节点故障。
- 请联系管理员检查网络是否故障并修复。
- 请联系管理员检查服务器是否异常并修复,例如是否被下电或者被删除。
- 重启服务器,尝试使用PuTTY工具以sopuser用户通过SSH方式是否能登录故障节点。
- 如果正常登录,则说明节点故障已修复,结束本节操作。
- 如果不能正常登录或无响应,则说明故障节点的操作系统异常,恢复其操作系统,具体操作请参见《系统维护与监控(管理面)》中的“恢复OMP节点操作系统”章节。
- 恢复产品应用程序,具体操作请参见《系统维护与监控(管理面)》中的“恢复产品应用程序”章节。
多个管理节点同时故障(GaussDB 100)
现象描述
管理面的部署模式是集群模式且使用的数据库为GaussDB 100,管理面无法正常访问。
可能原因
- 管理面服务或数据库异常。
- 多个管理节点同时故障,例如:
- OMP_01节点故障,OMP_02节点下电。
- 管理面数据库主备倒换后成为双备状态等。
处理步骤
- 从备份服务器获取管理面的备份文件“management.tar.gz”及其签名文件“management.tar.gz.sign”。备份文件存储路径为“/备份服务器用户根目录/配置备份参数的路径/management/management/时间戳/节点名称”。例如,备份服务器的登录用户为ftpuser用户,该路径为“/opt/backup/ftpboot/backup/management/management/20190729002834588/node146”。
- 联系华为技术支持工程师获取对应版本的完整性校验工具包“BKSigntool-工具版本-使用操作系统_系统类型_pkg.tar”至PC。
- 使用FileZilla工具以sopuser用户通过SFTP方式将完整性校验工具包和管理面备份文件及签名文件上传至所有的管理节点的“/tmp”目录,具体操作请参见使用PuTTY登录服务器。
- 禁止主备数据库实例发生倒换。
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMP_01节点,具体操作请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,禁止主备数据库实例在180分钟内发生倒换。
> cd /opt/oss/manager/agent/bin
> bash dbha_switch_tool.sh -cmd set-ignore-nodes -nodes all -expire 180
- 停止管理面的数据库和服务。
- 使用PuTTY工具以sopuser用户通过SSH方式依次登录所有的管理节点执行以下操作。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,停止管理面服务和数据库。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd stopmgr
系统提示如下类似回显信息,则说明管理面服务和数据库停止成功,请执行6。如果停止失败,执行6。
... ============================ Stopping management processes is complete. ... ============================ Stopping management dc is complete
- 请根据节点类型分别在三个节点执行以下操作,进行恢复前预处理。
- 使用PuTTY工具以sopuser用户通过SSH方式依次登录OMP_01、OMP_02和OMP_03节点。
- 执行以下命令,切换到root用户。
> su - root
Password:root用户的密码
- 执行以下命令,进行恢复前预处理。
- 如果是OMP_01或OMP_02节点,请执行以下命令:
# [ -d /opt/oss/share/manager-bak ] || cp -a /opt/oss/share/manager /opt/oss/share/manager-bak
# rm -rf /opt/oss/share/manager/{Etcd/,MCZKService/,ServiceCenter/}
- 如果是OMP_03节点,请执行以下命令:
# [ -d /opt/oss/share/manager-bak ] || cp -a /opt/oss/share/manager /opt/oss/share/manager-bak
# rm -rf /opt/oss/share/manager/{Etcd/,MCZKService/}
- 如果是OMP_01或OMP_02节点,请执行以下命令:
- 执行以下命令查询是否存在ossadm和dbuser用户启动的进程,存在时清理对应用户进程。
# ps -ef
系统回显如下类似信息:UID PID PPID C STIME TTY TIME ... root 5263 5475 0 15:04 ? 00:00:00 ... ossadm 5270 35779 0 15:04 ? 00:00:00 ... dbuser 5322 1 8 11:36 ? 00:18:26 ... ...
- 如果“UID”的值为“ossadm”,表示存在ossadm用户启动的进程,则执行以下命令清理ossadm用户进程。
# ps -fww -uossadm --no-headers |awk '{print $2}'|xargs kill -9
- 如果“UID”的值为“dbuser”,表示存在dbuser用户启动的进程,则执行以下命令清理dbuser用户进程。
# ps -fww -udbuser --no-headers |awk '{print $2}'|xargs kill -9
- 如果“UID”的值无“ossadm”和“dbuser”,请跳过此步骤。
执行后使用ps -ef命令再次查询,确保已无ossadm和dbuser用户启动的进程。
- 如果“UID”的值为“ossadm”,表示存在ossadm用户启动的进程,则执行以下命令清理ossadm用户进程。
- 执行以下命令,退出root用户。
# exit
- 在OMP_01或OMP_02节点中查找“mgrdbInstanceName”的主数据库实例所在节点。如果登录的故障节点不是OMP_01或OMP_02节点时,请跳过此步骤。
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMP_01或OMP_02节点。
- 执行以下命令查找“mgrdbInstanceName”的主数据库实例所在节点。
> cd /tmp
> zgrep --binary-files=text 'mgrdbInstanceName=managedbsvr' management.tar.gz- 若系统回显如下类似信息,则表示该节点为“mgrdbInstanceName”的主数据库实例所在节点。
mgrdbInstanceName=managedbsvr-0-999
- 若系统回显没有回显信息,则表示该节点为“mgrdbInstanceName”的备数据库实例所在节点。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 参见表3-130执行相关操作恢复管理面的应用程序和数据。
- 必须按照先“mgrdbInstanceName”的主数据库实例所在节点,再“mgrdbInstanceName”的备数据库实例所在节点,最后其他节点的顺序分别在节点执行9~11,否则将导致恢复失败。
- 由于恢复管理面的时间较长,PuTTY可能会因为超时断连,请设置PuTTY为不断连,具体操作请参见如何防止PuTTY工具超时断连。
表3-130 恢复管理面节点
操作
“mgrdbInstanceName”的主数据库实例所在节点
> sudo /usr/local/uniepsudobin/execute.sh /tmp/BKSigntool-工具版本-使用操作系统_系统类型_pkg.tar /opt/backupManagement restoreManagement.sh /tmp/management.tar.gz
说明:若管理节点和产品节点为同一个节点且使用同一个数据库软件,当数据库软件损坏需要同时恢复数据库软件时,请在命令后加参数“yes”,不加参数“yes”则默认不恢复数据库软件。恢复数据库软件时,可能会导致产品功能短暂不可用。判断管理节点和产品节点是否为同一个节点且使用同一个数据库软件,具体操作请参见如何判断节点的部署模式和如何判断管理节点和产品节点是否使用同一个数据库软件。
举例如下:
> sudo /usr/local/uniepsudobin/execute.sh /tmp/BKSigntool-工具版本-使用操作系统_系统类型_pkg.tar /opt/backupManagement restoreManagement.sh /tmp/management.tar.gz yes
系统回显类似如下信息时,请输入“y”并按“Enter”:Are you sure you want to restore the database applications? [y/n]
其他节点
> sudo /usr/local/uniepsudobin/execute.sh /tmp/BKSigntool-工具版本-使用操作系统_系统类型_pkg.tar /opt/backupManagement recoveryGaussManagement.sh /tmp/management.tar.gz
说明:若管理节点和产品节点为同一个节点且使用同一个数据库软件,当数据库软件损坏需要同时恢复数据库软件时,请在命令后加参数“yes”,不加参数“yes”则默认不恢复数据库软件。恢复数据库软件时,可能会导致产品功能短暂不可用。
举例如下:
> sudo /usr/local/uniepsudobin/execute.sh /tmp/BKSigntool-工具版本-使用操作系统_系统类型_pkg.tar /opt/backupManagement recoveryGaussManagement.sh /tmp/management.tar.gz yes
系统回显类似如下信息时,请输入“y”并按“Enter”:Are you sure you want to restore the database applications? [y/n]
- 系统回显以下信息时,表示管理面恢复成功,且数据库实例和管理面服务也成功启动。
Restore management successfully.
- 系统回显以下信息时,说明恢复过程中启动管理面服务失败。请先联系华为技术支持工程师,查看管理面数据库实例的状态是否正常。
ERROR: Start management app service falied. ERROR: Please check if the dbInstance status is ok, if its not ok, please recovery the dbInstance first, and then try to start management. ERROR: Restore management failure.
- 管理面数据库实例状态正常,说明管理面服务启动失败并不是由管理面数据库实例状态异常所导致,请联系华为技术支持工程师处理。
- 管理面数据库实例状态异常,请先修复数据库,具体操作请参见《故障处理》中的“数据库故障”章节,并手动启动管理面服务,具体操作请参见启动管理面服务。
- 系统回显类似如下信息,说明校验管理面备份文件失败,请联系华为技术支持工程师处理。
ERROR: Verify /opt/backupManagement/management.tar.gz failed. ERROR: Restore management failure.
- 系统回显如下信息时,说明任务执行失败,请联系华为技术支持工程师处理。
ERROR: Restore management failure.
- 执行以下命令,退出ossadm用户。
> exit
- 执行以下命令,删除上传到临时目录的文件。
> rm -rf /tmp/management.tar.gz
> rm -rf /tmp/management.tar.gz.sign
> rm -rf /tmp/BKSigntool-工具版本-使用操作系统_系统类型_pkg.tar
- 恢复主备数据库实例的倒换。
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMP_01节点。
如果管理面的部署模式是集群模式,只需在OMP_01节点执行本操作。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,恢复主备数据库实例的倒换。
> cd /opt/oss/manager/agent/bin
> bash dbha_switch_tool.sh -cmd del-ignore-nodes
如果未显示Successful表示执行失败,请联系华为技术支持工程师处理。
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMP_01节点。
- 检查产品数据库实例的“状态”。
- 登录管理面,进入“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择产品。
- 在“关系数据库”页签中检查数据库实例的“状态”是否为“正在运行”。
- 是,则请跳过此步骤。
- 否,请先修复数据库,具体操作请参见《故障处理》中的“数据库故障”章节。
- 可选:节点和产品节点为同一个节点,则还需恢复产品的应用程序和数据,须严格按照恢复数据库应用程序、恢复产品应用程序和恢复产品数据的顺序依次执行且无需重复执行产品数据的恢复:
- 恢复数据库应用程序,具体操作请参见《系统维护与监控(管理面)》中的“恢复数据库应用程序”章节。
- 恢复产品应用程序,具体操作请参见《系统维护与监控(管理面)》中的“恢复产品应用程序”章节。
- 恢复产品数据,具体操作请参见《系统维护与监控(管理面)》中的“恢复产品数据”章节。
节点倒换生效时间超出预期
现象描述
主备节点发生倒换时,倒换生效时间超出预期。
可能原因
对于主备类型的服务,如果主节点服务异常,重启3次还异常则会启动备节点服务,主备节点会发生倒换,浮动IP地址会从主节点迁移到备节点。若网关支持BRAS(broadband remote access server)认证,浮动IP地址的迁移不会立即生效,只有BRAS路由表老化时或者BRAS检测到原主节点失效才会生效,浮动IP地址倒换时间以路由表老化时间或者BRAS检测时间为准。
处理步骤
联系管理员确认BRAS路由表老化时间和检测时间,经过该时间后查看倒换是否成功,若倒换仍未生效,请联系华为技术支持工程师。
服务故障
服务日志故障
现象描述
查看服务日志时,无法打印最新日志信息。
可能原因
- 服务日志权限不正确。
- 服务日志异常报错。
处理步骤
- 使用Putty工具以sopuser用户登录故障所在节点。
- 执行以下命令,切换至ossadm用户。
> su - ossadm
- 执行如下命令查询服务异常原因。
> cd /var/log/oss/NCECAMPUS/XXXXXService/XXXXXXservice-XX-XX/tomcatlog
> vi catalina.out
log4j:ERROR setFile error java.io.FileNotFoundException: /var/log/oss/NCECAMPUS/XXXXXService/XXXXXservice-XX-XX/log/root.log (Permission denied) at java.io.FileOutputStream.open0(Native Method) at java.io.FileOutputStream.open(FileOutputStream.java:270) at java.io.FileOutputStream.<init>(FileOutputStream.java:213) at java.io.FileOutputStream.<init>(FileOutputStream.java:133) at org.apache.log4j.FileAppender.setFile(FileAppender.java:294) at org.apache.log4j.RollingFileAppender.setFile(RollingFileAppender.java:207) at com.huawei.bsp.log4j.extend.OssRollingFileAppender.setFile(OssRollingFileAppender.java:247) at com.huawei.bsp.log4j.extend.OssRollingFileAppender.subAppend(OssRollingFileAppender.java:212)
- 执行如下命令重启问题所在服务。
> /opt/oss/manager/agent/bin/ipmc_adm -cmd restartapp -app XXXXXService
- 查看最新服务日志是否能正常打印。
> cd /var/log/oss/NCECAMPUS/XXXXXService/XXXXXservice-XX-XX/log
> tailf root.log
SMPMQService数据文件损坏导致SMPMQService进程异常
现象描述
SMPMQService数据文件损坏导致该服务无法启动。
可能原因
节点异常下电或者备份恢复管理面导致SMPMQService数据文件损坏,从而导致SMPMQService进程启动异常。
前提条件
- 已获取SMPMQService进程名称(例如“SMPMQService-0-0”)。
- 已获取SMPMQService进程异常节点的管理IP地址。
背景描述
SMPMQService是基于kafka三方件的服务,各节点上报数据会写入文件,如果异常掉电或者备份恢复管理面操作会概率性导致文件损坏,进而导致服务启动失败。
处理步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录SMPMQService进程异常的节点。获取SMPMQService服务所在节点的IP地址请参见如何查找服务所在节点的IP地址。
- 执行以下命令,切换至ossadm用户。
> su - ossadm
- 执行以下命令,删除SMPMQService进程的配置文件。
> cd /opt/oss/manager/apps/SMPMQService/init/
> sh delete_mq_damaged_files.sh
- 执行以下命令,启动SMPMQService进程。
> /opt/oss/manager/agent/bin/ipmc_adm -cmd restartapp -app SMPMQService -tenant manager
系统回显如下类似信息,表示SMPMQServic进程启动成功,否则请联系华为技术支持工程师。
Starting process SMPMQService-0-0 ... success
- 查看SMPMQService进程的“状态”。
- 登录管理面,具体操作请参见登录管理面。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择“iMaster NCE-Campus-OMP”。
- 选择“服务”页签,单击“UniEPMgr”进入服务详情页面。
- 在“服务进程”区域,查看以“SMPMQService”开头的服务进程的“状态”。
- 如果“状态”为“正在运行”,则故障恢复,处理结束。
- 如果“状态”为“启动中”或“停止中”,单服务的启停时长一般不超过1分钟,如果服务长时间处于该状态,请联系华为技术支持工程师处理。
- 如果“状态”为“故障”、“未知”或“未运行”,说明SMPMQService进程运行异常,请联系华为技术支持工程师处理。
SMPMQService数据文件损坏后SMPMQService服务重启内存溢出
现象描述
OMP主备节点异常下电导致SMPMQService服务中的数据文件损坏,如果SMPMQService服务重启后在“opt/oss/manager/apps/SMPMQService/”路径下生成以“hprof”为后缀的文件,说明内存溢出。
操作须知
如果管理面的部署模式是集群场景,只需在内存溢出所在的OMP节点中执行一次恢复即可。
操作步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMP节点,具体操作请参见使用PuTTY登录服务器。
- 执行以下命令,切换至ossadm用户。
> su - ossadm
- 执行如下命令进行恢复操作。
# cd /opt/oss/manager/apps/SMPMQService/shellscript
# sh reset_log_offsets.sh
系统提示如下类似回显信息,则表示恢复成功。
Excute reset_log_offsets.sh operation OMP IP:10.248.151.239 Authorized users only. All activities may be monitored and reported. Stopping process smpmqservice-0-0 ... success Authorized users only. All activities may be monitored and reported. Starting process smpmqservice-0-0 ... success Finish reset_log_offsets operation.
异地容灾系统故障
主备站点间心跳异常
现象描述
在管理面的“管理异地容灾系统”页面中,主站点和备站点之间的心跳状态显示为(异常)。
可能原因
- 主站点和备站点之间心跳网络异常。
- 主站点或备站点的容灾服务异常。
- 主站点和备站点管理节点上的异地容灾系统证书不匹配或者已过期。
前提条件
- 已获取备站点管理节点的心跳IP地址。
- 已获取主备站点管理节点sopuser和ossadm用户的密码。
处理步骤
该故障排查方法比较复杂,此处只介绍初步的排查方法,如果仍不能解决,请联系华为技术支持工程师处理。
- 检查主站点和备站点之间的心跳网络是否连通。
- 使用PuTTY工具以sopuser用户通过SSH方式登录主站点的管理节点。执行下述命令,切换至ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,测试主站点和备站点管理节点的连通性。
- 如果IP地址为IPv4:
> ping 备站点管理节点的心跳IP地址
- 如果IP地址为IPv6:
> ping6 备站点管理节点的心跳IP地址
查看系统回显信息:
- 如果回显如下类似信息,表示可以ping通,说明网络连接正常。
64 bytes from 备站点管理节点的心跳IP地址: icmp_seq=1 ttl=251 time=42.1 ms
- 如果等待1分钟无回显信息,说明网络连接异常,请联系管理员检查并恢复网络。
- 如果IP地址为IPv4:
- 按“Ctrl+C”终止ping命令。
- 使用PuTTY工具以sopuser用户通过SSH方式登录主站点的管理节点。执行下述命令,切换至ossadm用户。
- 分别检查主站点和备站点管理节点的容灾进程是否正常。
- 登录主站点管理面,具体操作请参见登录管理面。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择iMaster NCE-Campus-OMP。
- 选择“服务”页签,单击“UniEPMgr”。
- 在“服务进程”区域,查看是否有“drmgrservice-x-x”进程,且该进程的“状态”是否为“正在运行”。
x为实例编号,具体以实际为准。
- 是,表示该进程存在,且运行正常。
- 否,请联系华为技术支持工程师处理。
- 登录主站点管理面,参考以上操作,检查备站点容灾进程是否正常,如果异常请联系华为技术支持工程师修复容灾进程。
- 检查主站点和备站点管理节点的异地容灾系统证书是否过期。查看是否存在主备站点的“51025 容灾证书已过期”告警。
- 是,请更新容灾证书,具体操作请参见《系统维护与监控(管理面)》中的“更新异地容灾系统证书”章节。
- 否,则表示不是证书过期导致该故障。
- 联系华为技术支持工程师检查主站点和备站点管理节点异地容灾系统证书是否匹配。
异地容灾复制异常
主备站点数据库数据同步异常
现象描述
在管理面的“管理异地容灾系统”页面中,主站点和备站点之间的“数据同步状态”显示为“异常”,并且单击展开产品信息后,查看“数据类型”为“数据库”的状态,也显示为“异常”。
可能原因
主站点和备站点产品之间的数据复制链路通信异常。
异地容灾系统的数据复制异常定位思路如图3-39所示,本地数据库采用主备模式部署,数据写入主数据库,然后主数据库再同步给备数据库,如主站点DB01上的数据同步给DB02,备站点DB03上的数据同步给DB04。数据进行异地复制时,主站点数据会从主数据库同步给备站点的主数据库,如主站点DB01上的数据同步给备站点DB03。
影响数据复制的主要因素有以下几点:
- 主备站点产品间的数据复制链路。
- 本地节点间的数据复制链路。
- 数据库运行状态。
处理步骤
- 检查主备站点间的数据复制链路是否正常。
- 使用PuTTY工具以sopuser用户通过SSH方式登录主站点的管理节点。
- 执行以下命令,切换至主站点产品的主数据库实例所在节点。
> ssh 主站点产品的主数据库实例所在节点IP地址
- 执行以下命令,测试主站点和备站点数据库节点的连通性。
以下命令中的节点IP地址为备站点上与主站点产品的主数据库实例名称相同所在节点的IP地址。
- 如果IP地址为IPv4:
> ping 备站点某节点的IP地址
- 如果IP地址为IPv6:
> ping6 备站点某节点的IP地址
查看系统回显信息:
- 如果IP地址为IPv4:
- 在主站点上检查本地主备数据库实例状态。
- 强制同步主备站点间数据。
- 在主用站点管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面待同步数据的产品所在行“操作”列中,单击
,选择产品的数据同步方向。
选择数据同步方向时,异地容灾系统会根据用户选择方向进行全量数据同步,并覆盖被同步的站点产品数据。建议以含有最新数据的产品为主用站点产品,向对端站点产品同步。若选择由备用站点向主用站点产品同步,则首先备用站点会升级为主用,然后再进行产品数据同步。
- 按照界面上的指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
RHM数据复制异常
现象描述
RHM类型的数据主备复制异常。
可能原因
RHM服务异常。
处理步骤
- 在发生RHM服务异常的站点上重启RHM服务。
- 强制同步主备站点间数据。
- 在主用站点管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面待同步数据的产品所在行“操作”列中,单击
,选择产品的数据同步方向。
选择数据同步方向时,异地容灾系统会根据用户选择方向进行全量数据同步,并覆盖被同步的站点产品数据。建议以含有最新数据的产品为主用站点产品,向对端站点产品同步。若选择由备用站点向主用站点产品同步,则首先备用站点会升级为主用,然后再进行产品数据同步。
- 按照界面上的指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
异地容灾复制异常且健康检查结果为空
现象描述
管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”,数据同步状态显示“异常”。
单击页面右上方“健康检查”按钮。检查结束后,“站点间评估详情”和“主站点评估详情”显示“没有记录”。
可能原因
主用站点管理节点的备节点与业务数据库合设场景,管理节点的备节点故障,导致业务数据库亦无法正常运行。从而产生容灾复制异常且健康检查结果为空的现象。
处理步骤
- 在备用站点执行“接管”操作。详见《系统维护与监控(管理面)》的“接管故障产品”页面。
- 在当前的主用站点删除异地容灾系统。详见《系统维护与监控(管理面)》的“删除异地容灾系统”页面。
- 修复故障节点。
- 在当前的主用站点重新配置异地容灾关系,数据由当前的主用站点向备用站点同步。详见《系统维护与监控(管理面)》的“配置异地容灾系统”页面,
- 在当前的主用站点执行“倒换”操作,将故障修复后的站点恢复为主用站点。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,在产品所在行的“操作”列,单击
,按照界面指引完成相关操作。
- 数据同步过程中,备用站点的“系统监控”页面可能显示数据库状态为“异常”。数据同步完成后,数据库状态将恢复为“正常”。
- 若管理面部署了多个产品并需对这些产品执行倒换操作,请选择待倒换产品,单击产品列表上方的“倒换”,按照界面指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”界面中查看倒换产品的“主站点产品”和“备站点产品”列的信息,产品容灾状态与倒换结果相符。
- 在“管理异地容灾系统”页面,查看倒换产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录并且界面中各菜单显示完整。
- (可选)请根据实际情况手工启动进程或者修改进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 选择“进程”页签,勾选待启动的进程,在进程列表右上方单击“启动”,按照界面指引完成相关操作。
- 如果产品存在需修改启动类型的进程,具体操作请参见配置进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
异地容灾系统界面加载异常或者操作时发生异常
现象描述
管理面中的“管理异地容灾系统”页面加载时发生异常,但其他功能页面都能正常显示;或者在“管理异地容灾系统”页面执行容灾操作时发生异常,例如提示查询异地容灾系统信息失败,但其他功能页面都能正常操作。
可能原因
容灾相关服务DRMgrService异常。
处理步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录异常的异地容灾系统界面所属站点的管理节点。
- 执行以下命令,切换至ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,查询容灾服务状态。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd statusapp -tenant manager
系统回显如下类似信息,查看DRMgrService服务的“Status”。
... drmgrservice-0-0 drmgrservice DRMgrService manager cluster 10.10.67.76 53986 RUNNING ...
- 根据查询结果,选择对应操作。
容灾服务状态
操作
“Status”显示为“STOPPED”
执行以下命令,启动容灾服务。
> ipmc_adm -cmd startapp -app DRMgrService -tenant manager
当系统回显如下信息时,说明服务启动成功,否则请联系华为技术支持工程师。
Starting process drmgrservice-0-0 ... success
“Status”显示为“RUNNING”
执行以下命令,重启容灾服务。
> ipmc_adm -cmd restartapp -app DRMgrService -tenant manager
当系统回显如下信息时,说明服务重启成功,否则请联系华为技术支持工程师。
Stopping process drmgrservice-0-0 ... success Starting process drmgrservice-0-0 ... success
“Status”显示为“ABNORMAL”
- 容灾服务启动后等待5分钟,检查容灾状态。如果各状态与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 查看主备站点所有产品的容灾状态为“主用”或者“备用”。
如果产品状态显示为“初始化中”,强制同步主备站点上该产品的数据,具体操作请参见《系统维护与监控(管理面)》中的“同步主备产品数据”章节。
- 查看所有产品的“数据同步状态”为“已同步”或者“同步中”。
如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。如果等待10分钟后,仍存在“数据同步状态”为“已同步”或者“同步中”之外状态的产品,强制同步主备站点上该产品的数据,具体操作请参见《系统维护与监控(管理面)》中的“同步主备产品数据”章节。
- 主用站点的业务面能正常登录。
重启主备站点容灾服务后产品状态异常
现象描述
主备站点重启容灾服务后,主备站点产品在“管理异地容灾系统”界面的状态显示为“初始化中”。
处理步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”查看主备站点之间的心跳状态。
- 在“管理异地容灾系统”页面待同步数据的产品所在行“操作”列中,单击
,选择产品的数据同步方向。
选择数据同步方向时,异地容灾系统会根据用户选择方向进行全量数据同步,并覆盖被同步的站点产品数据。建议以含有最新数据的产品为主用站点产品,向对端站点产品同步。若选择由备用站点向主用站点产品同步,则首先备用站点会升级为主用,然后再进行产品数据同步。
- 按照界面上的指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
异地容灾关系配置失败
现象描述
- 在配置主备站点的异地容灾关系时,主站点管理面“系统 > 任务列表”中创建容灾系统任务状态显示“部分成功”,展开任务基本信息,显示部分数据库实例无法创建数据复制关系。
- 备站点管理面主菜单中选择“产品 > 系统监控 > 关系数据库”,对应的数据库实例显示“未运行”。
可能原因
主备站点间的带宽不满足要求或网络闪断,导致数据同步失败,且备站点数据库实例在创建数据复制关系过程中发生故障。
操作须知
如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
处理步骤
- 使用Putty工具,以sopuser用户登录备站点上状态为“未运行”的数据库实例所在的DB节点。
- 执行以下命令,切换至ossadm用户。
> su - ossadm
- 执行如下命令,强制rebuild状态为“未运行”的数据库实例。
下述以rebuild数据库实例tenantpuerdbsvr-2-42为例。
/usr/bin/sudo -u dbuser bash -c "source ~/.bashrc;/usr/bin/flock -ox /opt/zenith/data/tenantpuerdbsvr-2-42 -c '/opt/oss/manager/agent/DeployAgent/rtsp/python/bin/python /opt/zenith/app/bin/zctl.py -t build -c -D /opt/zenith/data/tenantpuerdbsvr-2-42 -P'"
使用数据库用户sys登录数据库。Need database connector's name and password: Username:sys Password:
等待命令执行完成。
Begin to shutdown database ... Done Begin to clear data and log ... Done Begin to startup instance nomount ... Done Begin to build database ... Done Successfully build database
检查操作结果。备站点管理面主菜单中选择“产品 > 系统监控 > 关系数据库”,rebuild的数据库实例显示“正在运行”。
- 主站点的管理面“高可用 > 异地高可用系统 > 管理异地容灾系统”中,在待同步数据的产品所在行“操作”列中,单击
,选择数据同步方向为主站点同步至备站点。按照界面上的指引强制同步主备站点数据。
- 检查操作结果。如果操作结果与预期相符,则故障解除骤。否则请联系华为工程师。
- 主站点管理面“高可用 > 异地高可用系统 > 管理异地容灾系统”中,所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 备站点管理面“产品 > 系统监控 > 关系数据库”中,查看所有的数据库实例,显示“正在运行”。
站点故障导致降备失败
现象描述
当出现以下现象之一时:
- 心跳正常,在进行降备操作时,降备任务执行失败,本端站点产品的容灾状态为“降备中”,对端站点产品的容灾状态为“升主中”、“初始化中”或者“接管后主用”。
- 心跳异常,在进行降备操作时,降备任务执行失败,本端站点产品的容灾状态为“降备中”。
可能原因
当前站点故障,导致降备在停止当前站点服务时失败。
处理步骤
- 根据任务信息提示,修复当前站点故障。
- 继续降备当前站点。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,在产品所在行“操作”列,单击
,按照界面指引完成相关操作。
若管理面部署了多个产品并需对这些产品执行降备操作,请选择待降备产品,单击产品列表上方的“降备”,按照界面指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”界面中,被降备的产品为“备用”状态。
- 降备产品所在站点的业务面无法登录。
- 修复心跳状态,具体操作请参见主备站点间心跳异常。
- 以对端站点为主进行同步。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在待同步数据的产品所在行“操作”列中,单击
,选择对端站点产品的数据向本端站点产品进行同步。
- 按照界面上的指引完成相关操作。
- 在主菜单中选择“系统 > 任务列表”,在“任务列表”界面中查看数据同步任务的执行结果。
- 如果任务执行成功,执行4.e。
- 如果任务执行失败,并且任务详细信息中显示停止服务失败时,在对端站点的“管理异地容灾系统”页面,在产品所在行的“操作”列单击
,按照界面指引完成接管操作,从而使对端站点产品接管本端站点产品的业务。然后联系华为技术支持工程师定位并处理问题。
如果为其他原因导致的数据同步失败,请联系华为技术支持工程师。
- 检查心跳状态和数据同步状态。如果状态与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
倒换失败且倒换回滚失败
现象描述
执行容灾倒换后,管理面“系统 > 任务列表”中容灾倒换任务状态显示“执行失败”。同时管理面“高可用 > 异地高可用系统 > 管理异地容灾系统”中,倒换前的主用站点显示“升主中”,倒换前的备用站点显示“降备中”。
可能原因
主备站点间的带宽不满足要求或网络闪断,导致倒换及倒换回滚操作均无法正常执行。
处理步骤
在主用目标站点执行强制“接管”。
本节将计划作为主用站点的站点称为主用目标站点,计划作为备用站点的站点称为备用目标站点。
- 主用目标站点的管理面“高可用 > 异地高可用系统 > 管理异地容灾系统”中,在产品所在行的“操作”列,单击
,按照界面上的指引完成接管操作。
- 管理面“系统 > 任务列表”中查看容灾接管任务执行状态。管理面“高可用 > 异地高可用系统 > 管理异地容灾系统”中查看主备站点状态。
- 若接管任务显示“执行成功”且主备站点为正常的“主用”及“备用”状态,异地容灾系统恢复正常使用。
- 若接管任务显示“执行成功”但主备站点分别为“主用”及“降备中”状态,需在备用目标站点执行强制“降备”操作。
备用目标站点管理面“高可用 > 异地高可用系统 > 管理异地容灾系统”中,在产品所在行的“操作”列,单击
,按照界面指引完成降备操作。
- 若接管任务显示“执行失败”,停止备用目标站点产品的所有数据库后,再次在主用目标站点执行强制“接管”。
- 在备用目标站点的管理面“产品 > 系统监控”页面左上角,单击切换至对应的产品。在界面左上角,单击“停止”,在下拉框中选择“停止数据库”,按照界面指引完成相关操作。
- 在主用目标站点的管理面“高可用 > 异地高可用系统 > 管理异地容灾系统”中,在产品所在行的“操作”列,单击
,再次执行“接管”操作。
- 管理面“高可用 > 异地高可用系统 > 管理异地容灾系统”中,在任意站点的产品所在行“操作”列中,单击
,选择主备站点产品的数据同步方向。按照界面上的指引完成数据同步操作。
选择数据同步方向时,异地容灾系统会根据用户选择方向进行全量数据同步。建议以含有最新数据的产品为主用站点产品,向对端站点产品同步。
RHM容灾场景下ZookeeperSerivce卸载重装引起容灾异常
现象描述
在RHM容灾关系建立后,卸载重装主集群或者备集群某一侧的ZookeeperService,然后再次建立容灾关系时出现容灾异常。
可能原因
该问题由Zookeeper组件引起,当RHM容灾关系建立后,卸载重装主集群或者备集群某一侧的ZookeeperService,例如卸载重装备集群的ZookeeperService,此时备集群中Zookeeper作为服务端,记录的zxid因为重装而被重置,而主集群中Zookeeper作为客户端,zxid的记录仍然存在,在客户端请求服务端时,出现客户端一侧的zxid与服务端一侧的zxid不匹配,客户端一侧主动断开连接。
处理步骤
在主备卸载重装完成后,重启对端的RHM服务,以备集群卸载重装为例,则应重启主集群上的RHM服务。
以管理面为例。
- 登录管理面。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 在“服务”页签左上角的搜索框中输入“RHM”,并单击
。
- 选中“RHM”服务,单击界面右侧的“停止”。
- 在弹出窗口,单击“是”。
- 在当前页面,查看RHM服务的状态。若状态为“未运行”则表示停止成功。
- 选中“RHM”服务,单击界面右侧的“启动”。
- 在弹出窗口,单击“是”。
- 在当前页面,查看RHM服务的状态。若状态为“运行中”则表示重启成功。
删除异地容灾系统后清除产品节点的容灾信息
现象描述
产品节点下电或者异常时删除异地容灾系统,在“任务列表”页面中显示删除异地容灾系统部分成功和删除产品部分成功,在删除产品部分成功的任务详细信息中显示删除失败的节点IP地址。节点恢复正常后需清除产品节点上的容灾信息,否则在非异地容灾场景时该节点上的业务异常。
可能原因
产品节点下电或者异常。
处理步骤
- 若删除异地容灾系统后还需重新创建,则无需执行本节操作,可直接创建。
- 若删除异地容灾系统后无需再重建,请根据删除产品的任务详细信息中删除失败的节点的IP地址,在对应的站点上执行本节操作。
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令,切换至ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,清除产品节点上的容灾信息。
> cd /opt/oss/manager/apps/DRMgrService/bin
> bash dr_repair.sh
系统回显如下信息时,根据站点实际情况选择清除产品节点信息后,是否启动产品所有服务。
Start the product services of cdo after the repair? (y/n):
以清除产品节点信息后需启动产品所有服务为例,系统回显如下类似信息时,说明操作执行成功,否则请联系华为技术支持工程师。
... Starting the product services of product... Product services of product started successfully. Complete.
- 登录管理面,具体操作请参见登录管理面。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 如果管理面的部署模式是集群模式,在“服务”页签中查看OMMHA实例的运行状态,否则请跳过。
- 在“节点”页签中查看恢复正常的产品节点的状态。
- 若产品节点的“服务状态”为“运行正常”,则产品节点状态修复成功。
- 若产品节点的“服务状态”为“部分运行”、“未知”或“故障”,请联系华为技术支持工程师。
- 若产品节点的“服务状态”为“未运行”,在“系统监控”页面左上角,单击“启动”,在下拉框中选择“启动服务”,按照界面指引完成相关操作。
仲裁三方站点故障
现象描述
业务面存在“仲裁节点断连”告警。且管理面的“产品 > 系统监控”页面中,Common_Service节点的连接状态为“正常”。
可能原因
仲裁站点操作系统或仲裁服务故障。
前提条件
异地容灾场景,修复故障前需先删除主备站点待恢复产品的容灾关系,具体操作请参见《系统维护与监控(管理面)》中的“删除产品的异地容灾关系”章节。
处理步骤
- 依次执行表3-131中的检查项及其检查方法,按照对应的故障排除方法修复故障。
导致仲裁站点故障的因素复杂,本节提供该故障基本的排除方法,如果按照以下操作仍然无法解决该故障,请收集故障处理过程中的信息,联系华为技术支持工程师协助解决。
表3-131 仲裁站点故障排查序号
检查项
检查方法
故障排除方法
1
网络连接
联系管理员检查网络是否异常。
请联系管理员修复网络。
2
虚拟机或物理机运行状态
联系管理员检查虚拟机或物理机是否异常,例如是否被下电或者被删除。
请联系管理员修复虚拟机或物理机。
3
操作系统运行状态
重启虚拟机或物理机,尝试使用PuTTY工具以sopuser用户通过SSH方式是否能登录仲裁站点。
如果不能正常登录或无响应,则说明故障站点的操作系统异常,需重装三方站点操作系统及重装仲裁服务。具体操作请参见《安装异地容灾系统》中的“自动倒换(带仲裁服务)”章节。
4
仲裁服务状态
业务面查看是否有“仲裁节点断连”告警。
存在该告警,可通过重装仲裁服务进行修复,具体操作请参见《安装异地容灾系统》中的“自动倒换(带仲裁服务)”章节。
- 重新登录业务面,查看“仲裁节点断连”告警是否已清除。已清除则故障已恢复。否则请联系华为技术支持工程师。
- 对于异地容灾场景,需重新建立主备站点已恢复产品的容灾关系,具体操作请参见《系统维护与监控(管理面)》中的“创建产品的异地容灾关系”章节。
HDFS同步任务不存在
现象描述
在管理面的“管理异地容灾系统”页面中,显示Hadoop分布式文件系统数据异常,点击详情,显示HDFS同步任务不存在。
可能原因
主备站点间的带宽不满足要求或网络闪断,导致数据同步失败。
操作须知
如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
处理步骤
- 登录管理面。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统页签中”,在任意站点的产品所在行“操作”列,单击
,选择主备站点产品的数据同步方向。
- 按照界面指引完成数据强制同步操作。
异地容灾系统HDFS同步状态异常
问题现象
在管理面的“异地容灾产品列表”页面中,显示Hadoop分布式文件系统数据异常,点击详情,显示无法查询复制状态。
可能原因
主备站点其中一个站点或者两个站点的FusionInsight密码过期,导致连接不上FusionInsight,查询复制任务失败。
处理步骤
- 修改主备站点的FusionInsight密码,要求主备站点的FusionInsight密码需要相同。
- 同步修改主备站点iMaster NCE-Campus中的FusionInsight密码,修改方法请参见修改FusionInsight Manager的密码后,如何在iMaster NCE-Campus同步修改?。
- 修改完成后等待5分钟左右,HDFS状态即可恢复正常。
无法查询HDFS复制状态
现象描述
无法查询HDFS复制状态。
可能原因
主备站点其中一个站点或者两个站点的FusionInsight密码过期,导致无法连接FusionInsight,查询复制任务失败。
处理步骤
- 修改主备站点的FusionInsight密码,两个站点的FusionInsight密码需要相同。
- 同步修改主备站点iMaster NCE-Campus的FusionInsight密码,修改方法参考修改FusionInsight Manager的密码后,如何在iMaster NCE-Campus同步修改?。
- 修改完成后等待5分钟左右HDFS状态即可恢复正常。
日志告警管理
iMaster NCE-Campus没有检查到自身的特定告警
故障现象
用户在iMaster NCE-Campus界面中查询不到iMaster NCE-Campus自身的特定告警。
可能原因
- 可能原因一:告警已屏蔽。
- 可能原因二:当前浏览器所在客户端与控制器后台Linux环境时钟有误差。
处理建议
- 可能原因一:告警已屏蔽。
使用admin帐号登录iMaster NCE-Campus,查看屏蔽告警,检查该活动告警是否在屏蔽告警列表中。如果在,单击
,该告警在“当前告警”页面中即可见。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,继续如下步骤。
- 可能原因二:当前浏览器所在客户端与控制器后台Linux环境时钟有误差。
检查当前浏览器所属的操作系统时间与控制器后台的Linux时间是否相差所在时区与零时区的差值。比如当前浏览器的操作系统为北京时间,东8区,后台Linux时间与前台的时间通过date -R命令查看后,需要与前台时间相差8小时。如果前后台时间差不是当前时区差,请配置前后台时间使其满足要求。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请联系技术支持人员。
相关告警
无
登录失败
iMaster NCE-Campus无法登录
故障现象
- 输入控制器的地址后页面无法跳转到登录页面。
- 在登录页面输入用户名和密码后无法正常登录。
- 在正常操作页面时点击刷新,页面无法正常刷新或者打开。
可能原因
- 可能原因一:浏览器版本不符合要求。
- 可能原因二:网络IP地址冲突。
- 可能原因三:客户网络异常。
- 可能原因四:iMaster NCE-Campus节点CPU或内存使用率过高。
- 可能原因五:iMaster NCE-Campus进程打开的文件句柄数过高。
处理建议
- 可能原因一:浏览器版本不符合要求。
- 支持的浏览器为Google Chrome 57以上版本,查看浏览器版本是否符合要求。
- 如果符合,说明故障不是由浏览器版本不符合要求引起的,请检查其他原因。
- 如果不符合,请将浏览器更新为控制器支持的版本。
- 判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,继续如下步骤。
- 可能原因二:网络IP地址冲突
通过SSH命令行登录到控制器安装节点,若输入密码总是提示密码不正确或登录到了其它节点,则可能发生了IP地址冲突。
此时需要检查控制器和FusionInsight各个节点的IP,保证集群内部无IP地址冲突。可通过网关设备查看各网络节点的IP和MAC的映射关系,查找冲突的IP对应的设备。
- 可能原因三:客户网络异常。
- 排查控制器北向涉及的浮动IP和端口否正常。
登录到控制器所有节点,执行ifconfig命令,查看北向IP和ER浮动IP是否启动,如下图所示,:1是ER浮动IP,:nv是北向IP,这两个IP不一定在同一个节点。
在:1节点执行netstat -anp | grep 31943 | grep LISTEN命令,检查北向端口31943是否正常。
如果北向接口正常,在:nv节点执行service keepalived restart命令重启keepalived服务,查看故障是否恢复,如果未恢复,则继续排查。
- 在本地ping控制器界面地址以及网关,例如控制器的界面地址为10.162.106.61,网关为10.162.106.1,查看是否能ping通。
如果能ping通,说明故障不是由客户网络异常引起的,请检查其他原因。
如果不能ping通,说明网络异常。- 检查网络异常是否是本地PC机网线松动、IP地址配置冲突等本地故障引起的。若是,请排除故障。
重新登录控制器,判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请继续如下步骤。
- 检查PC和控制器之间是否部署防火墙。若是,请登录防火墙,查看是否对接入控制器的源地址有配置限制、是否对控制器界面端口(18008)禁止访问。若是,请解除限制。
- 重新登录控制器,判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请继续如下步骤。
- 检查网络异常是否是本地PC机网线松动、IP地址配置冲突等本地故障引起的。若是,请排除故障。
- 分别在iMaster NCE-Campus集群各节点上ping其他节点管理网口(默认是eth0)的IP地址。
- 如果丢包率和延迟很低几乎为0,说明故障不是由客户网络丢包率较高或网络延迟异常,请检查其他原因。
- 如果有严重丢包(≥20%)或明显网络延迟(≥2000ms),说明客户网络异常,请自行排查网络问题。
- 分别在iMaster NCE-Campus集群各节点上ping其他节点业务网口(默认是eth1)的IP地址。
- 如果丢包率和延迟很低几乎为0,说明故障不是由客户网络丢包率较高或网络延迟异常引起,请检查其他原因。
- 如果有严重丢包(≥20%)或明显网络延迟(≥2000ms),说明客户网络异常,请自行排查网络问题。
- 如果非上述问题,请检查LVS和ER的心跳是否正常,登录:nv浮动IP所在的节点,执行命令ipvsadm -ln。
找到TCP xxx.xxx.xxx.xxx:18008 lc persistent 50,如果存在下图箭头所示的记录,表示ER心跳正常,其中“192.XXX.XXX.126”为ER浮动IP。如果不存在,请排除心跳线故障。
- 判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,继续如下步骤。
- 排查控制器北向涉及的浮动IP和端口否正常。
- 可能原因四:iMaster NCE-Campus节点CPU或内存使用率过高。
- 在iMaster NCE-Campus各节点上分别使用如下命令查看该节点的CPU和内存使用情况。
如果CPU率使用过高(≥90%),可以使用命令ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head查看具体是哪些进程占用CPU过高,并联系技术支持人员进行具体定位。
如果内存率使用过高(≥90%),可以使用命令ps aux|head -1;ps aux|grep -v PID|sort -rn -k +4|head查看具体是哪些进程占用内存过高,并联系技术支持人员进行具体定位。
如果存在占用CPU较多或占用内存较多(≥5GB)的非控制器进程,请执行kill -9 <PID>命令杀死该进程后重新观察,并联系技术支持人员确认。
- 判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,继续如下步骤。
- 在iMaster NCE-Campus各节点上分别使用如下命令查看该节点的CPU和内存使用情况。
- 可能原因五:iMaster NCE-Campus进程打开的文件句柄数过高。
- 登录iMaster NCE-Campus各节点后台,执行lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more命令查看文件句柄打开的个数。注意此命令执行过程可能耗时较久(大约1min左右)。
回显信息中第一列是打开句柄数,第二列是进程ID。由于lsof命令查询到的文件句柄数不太准确,需要针对每个进程ID执行后续步骤查看具体打开句柄数。
- 针对上述回显中的文件句柄,执行ll /proc/<PID>/fd | wc -l命令查看进程打开的文件句柄数。
以PID为24703的进程为例,命令和回显如下。
如果该进程打开的文件句柄数较大(≥50000),请联系技术支持人员做进一步分析定位。
如果能确认是iMaster NCE-Campus服务打开的句柄数较大,可以通过如下方法之一临时解决该问题。但即使问题得到解决,仍需联系技术支持人员反馈该异常。
- 重启占用内存过高的iMaster NCE-Campus服务。以PID为24703的进程为例,可以使用命令kill -9 24703停止该进程。守护进程会在1min内自动拉起该服务。
- 执行reboot命令,重启该节点。
即使故障暂时被解决了,您仍需要向技术支持人员报告此故障。
- 判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请联系技术支持人员。
- 登录iMaster NCE-Campus各节点后台,执行lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more命令查看文件句柄打开的个数。注意此命令执行过程可能耗时较久(大约1min左右)。
相关告警
无
系统管理
证书加载失败
故障现象
证书加载失败。控制器弹出类似下图的操作失败提示框。
可能原因
- 可能原因一:证书文件名已存在。
- 可能原因二:待加载的CA证书文件无效。
- 可能原因三:待加载的CA证书文件个数超过最大值。
- 可能原因四:已加载证书列表中存在与待加载证书指纹相同的证书文件。
- 可能原因五:证书不满足控制器的约束条件。
处理建议
- 可能原因一:证书文件名已存在。
使用admin帐号登录iMaster NCE-Campus。在主菜单中选择 ,单击“信任证书”页签,在“信任证书”页面的证书查看区域查看是否存在同名的CA证书文件。
如果存在,说明待加载的CA证书已经加载,修改待加载CA证书的文件名,并重新加载。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,继续如下步骤。
- 可能原因二:待加载的CA证书文件无效。
- 如果webUI界面给出“文件大小不正确”的错误提示,说明该证书文件大小为0KB或超过50KB,请重新向CA证书机构申请证书,并加载证书文件。
- 如果webUI界面给出“文件类型错误”的错误提示,说明该证书的文件类型错误(当前支持.pem/.cer格式),请重新向CA证书机构申请证书,并加载证书文件。
- 如果webUI界面给出“证书已超期”的错误提示,说明该证书的到期时间小于当前时间,请重新向CA证书机构申请证书,并加载证书文件。
- 如果webUI界面给出“证书尚未生效”的错误提示,说明该证书的生效时间大于当前时间,请重新向CA证书机构申请证书或等待该证书生效,并加载证书文件。
- 如果webUI界面给出“证书有效期超过上限50年或低于下限90天”的错误提示,说明该证书的有效期超过上限50年或低于下限90天,请重新向CA证书机构申请证书,并加载证书文件。
- 如果webUI界面给出“证书必须使用安全性高于SHA256的签名哈希算法”的错误提示,说明该证书的签名哈希算法安全性不满足条件,请重新向CA证书机构申请证书,并加载证书文件。
- 如果webUI界面给出“证书必须使用RSA长度大于2048的签名算法”的错误提示,说明该证书的签名算法安全性不满足条件,请重新向CA证书机构申请证书,并加载证书文件。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,继续如下步骤。
- 可能原因三:待加载的CA证书文件个数超过最大值。
使用admin帐号登录iMaster NCE-Campus。在主菜单中选择 ,单击“信任证书”页签,在“信任证书”页面的证书查看区域查看已加载的证书数量。
如果已加载的证书数量为128,则说明已加载的证书数量已经达到最大值,不能再加载新的证书。删除无用的证书后,重新加载待加载的CA证书。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,继续如下步骤。
- 可能原因四:已加载证书列表中存在与待加载证书指纹相同的证书文件。
使用admin帐号登录iMaster NCE-Campus。在主菜单中选择 ,单击“策略”页签,在该页签下上传证书文件时给出“已存在指纹相同的证书”的错误提示,说明已加载证书列表中虽然没有与待加载证书文件同名的证书文件,但是存在与其指纹相同的证书文件,不能重复导入指纹相同的证书文件。请重新向CA证书机构申请证书,并加载证书文件。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,继续如下步骤。
- 可能原因五:证书不满足控制器的约束条件。根据报错提示检查是否满足以下约束:
- 只支持X509 V3 Base64格式的证书。
- 证书必须使用安全性高于SHA256的签名哈希算法。
- 证书必须使用RSA长度大于2048的签名算法。
- 证书的有效期不能超过上限50年或低于下限90天。
- 证书的生效日期必须小于当前系统日期,否则会显示证书尚未生效。
- 证书的截止日期必须大于当前系统日期,否则会显示证书已超期。
- 证书文件大小应大于0KB,小于50KB。
- 上传证书个数最大支持128个。
- 创建策略个数最大支持256个。
如果不满足约束,请修改证书使其满足约束。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请联系技术支持人员。
相关告警
无
证书无法删除
故障现象
证书无法删除。证书的删除按钮为灰色,无法单击。
可能原因
当前证书已被策略绑定。
处理建议
- 使用admin帐号登录iMaster NCE-Campus。在主菜单中选择 ,单击“策略”页签。
- 查看策略列表,在策略证书信息中检查有哪些策略绑定了当前待删除的证书,删除当前待删除证书上绑定的策略,再重新尝试删除该证书。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请联系技术支持人员。
SyslogClientDefaultTrust.cer为默认证书,当前不支持删除。
相关告警
无
策略无法删除
故障现象
策略无法删除。策略的删除按钮为灰色,无法单击。
可能原因
当前策略被业务引用。
处理建议
- 使用admin帐号登录iMaster NCE-Campus。在主菜单中选择 ,单击“策略”页签。
- 查看策略列表,在策略应用信息中检查该策略绑定业务的次数,若次数大于1,解除绑定策略,再重新尝试删除该策略。
判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请联系技术支持人员。
相关告警
无
第三方短信服务器对接失败
故障现象
iMaster NCE-Campus与第三方短信服务器对接时,界面中提示测试失败。
可能原因
- 没有使用iMaster NCE-Campus支持的第三方短信服务器
- iMaster NCE-Campus与第三方短信服务器之间的网络没有连通
- 如果URL地址配置了第三方短信服务器的域名,iMaster NCE-Campus服务器对该域名解析失败
- 在iMaster NCE-Campus中配置第三方短信服务器的参数不正确
- iMaster NCE-Campus的短信模板不符合第三方短信服务器的要求
处理建议
- 检查第三方短信服务器是否是iMaster NCE-Campus支持使用的。
目前,iMaster NCE-Campus支持使用的第三方短信服务器包括:
- 企信通(fungo)
- twilio
- 检查iMaster NCE-Campus与第三方短信服务器的网络是否连通。
- 在iMaster NCE-Campus服务器上通过ping IP的方式检查与第三方短信服务器的网络是否连通。如果无法ping通,请检查网络连通性。
- 检查iMaster NCE-Campus服务器的防火墙是否放行第三方短信服务器的IP地址和端口。
检查iMaster NCE-Campus服务器是否可以正确解析第三方短信服务器的域名。
- 在iMaster NCE-Campus服务器中选择“开始 > 应用 > Windows 系统 > 命令提示符”。
- 运行以下命令,查看是否能正确解析第三方短信服务器的域名。
如果无法正确解析第三方短信服务器的域名,请检查iMaster NCE-Campus服务器的网卡是否正确配置DNS服务器IP地址。
nslookup 第三方短信服务器域名
检查短信服务器模板中第三方短信服务器的参数是否配置正确,如用户名密码是否错误等。
- 检查iMaster NCE-Campus的短信模板是否符合第三方短信服务器的要求。
- 如果第三方短信服务器还是无法配置成功,请打开“/opt/oss/log/NCECAMPUS/CampusBaseService/log/karaf.log.CampusBaseService”,查看第三方短信服务器返回的日志信息,并采取对应的解决措施。
相关告警
无
Portal认证
单击网页上的纯图片或者纯视频链接时,无法跳转到认证页面
现象描述
用户连接上SSID后,单击网页上的纯图片或者纯视频链接时,无法跳转到认证页面。
可能原因
浏览器自身原因,浏览器无法获得控制器重定向的地址。
处理步骤
此类问题无法规避,请勿单击纯图片或者纯视频链接进行跳转。
首次安装谷歌浏览器后,短信认证页面无法将光标移到对话框
现象描述
首次安装谷歌浏览器后,单击任意页面跳转到控制器认证页面,短信认证页面无法将光标移到对话框,导致无法输入手机号码。
可能原因
浏览器自身的行为。
处理步骤
- 刷新页面或者退出浏览器。
- 重新进入短信认证页面即可。
在终端上使用浏览器访问非80端口的网站无法跳转到Portal页面
现象描述
使用终端设备接入到Portal认证方式的SSID后,访问非80端口的任意网站时,无法自动跳转到Portal页面。
可能原因
规格约束。在终端设备访问非80端口的网站时,不支持重定向到Portal页面。
处理步骤
使用浏览器访问不带端口号的任意IP地址或域名。例如:
- https://www.huawei.com/
- https://192.168.1.100/
LAN网络业务配置
设备上线失败(设备未注册)
故障现象
设备无法注册到iMaster NCE-Campus。
在“状态”为“未注册”。
页面中,有设备的可能原因
- 可能原因一:设备版本不适配。
- 可能原因二:添加到iMaster NCE-Campus中的ESN与设备实际不符。
- 可能原因三:控制器License过期。
- 可能原因四:注册服务未启动。
- 可能原因五:网络IP地址冲突。
- 可能原因六:管理VLAN切换导致设备无法获取IP地址。
- 可能原因七:注册响应报文长度超过设备MTU值,导致设备无法正确处理该报文。
处理建议
- 可能原因一:设备版本不适配。
- 使用租户管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择“设备上下线日志”界面。 ,进入
- 单击“过滤条件”,按设备ESN搜索过滤,并查看“失败/离线原因”列的日志详情。
如果日志详情中提示“获取设备基本信息报文超时或设备返回失败”,说明iMaster NCE-Campus不支持当前版本。
- 将设备升级到iMaster NCE-Campus支持的版本后重试。
- 可能原因二:添加到iMaster NCE-Campus中的ESN与设备实际不符。
- 使用租户管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择“设备”界面。 ,进入
- 在界面右侧的搜索框中使用设备ESN搜索,看是否已经添加到iMaster NCE-Campus中。如果没有,请添加后重试。
- 可能原因三:控制器License过期。
- 使用租户管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择“设备上下线日志”界面。 ,进入
- 单击“过滤条件”,按设备ESN搜索过滤,并查看“失败/离线原因”列的日志详情。
如果日志详情中提示“license过期”,说明iMaster NCE-Campus的License不能满足设备上线的要求。
- 查看License使用情况,并执行相应的处理。
- 对于租户管理员管理License的场景,使用租户管理员在主菜单中选择“License”页面中查看License信息。
- 如果未加载License、License已过期或License资源已耗尽,请购买并加载新的License。
- 如果已加载License,且License未过期、仍有剩余资源,请联系华为工程师检查License或设备管理功能是否存在异常。
,在 - 对于系统管理员管理License的场景,使用系统管理员在主菜单中选择 ,查看License信息。如果未加载License、License已过期或License资源已耗尽,请购买并加载新的License。
- 对于租户管理员管理License的场景,使用租户管理员在主菜单中选择“License”页面中查看License信息。
- 可能原因四:注册服务未启动。
- 使用租户管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择“设备上下线日志”界面。 ,进入
- 单击“过滤条件”,按设备ESN搜索过滤,并查看日志详情。
如果未找到上下线日志,说明iMaster NCE-Campus的注册服务未启动。
- 使用ossuser用户分别登录到iMaster NCE-Campus的各节点,执行su - root切换到root用户。
- 执行netstat -apn|grep 10020|grep -i "listen"命令,查看TCP端口10020的使用情况。
- 如果无回显信息,说明设备注册服务启动失败。请联系技术支持人员。
- 如果回显信息显示10020端口被占用,请检查占用该端口的进程是否为控制器进程。如果不是,说明资源冲突,需要执行kill -9 <PID>命令终止可疑进程后重新启动控制器进程。否则请联系技术支持人员。
以如下回显为例,占用10020端口的进程是22127。
# netstat -apn|grep 10020|grep -i "listen" tcp 0 0 10.1.2.101:10020 :::* LISTEN 22127/java
根据PID找到进程,查看是否为控制器进程。
# ps -ef|grep 22127
如果回显信息显示这个进程与iMaster NCE-Campus无关(回显信息如下图所示),杀死该进程并重新启动iMaster NCE-Campus进程。
# ps -ef | grep NetWork | grep Main | awk '{print $2}' | xargs kill -9
- 可能原因五:网络IP地址冲突
若设备突然无法上线,且通过SSH命令行登录到控制器安装节点,若输入密码总是提示密码不正确或登录到了其它节点,则可能发生了IP地址冲突。
此时需要检查控制器和FusionInsight各个节点的IP,保证集群内部无IP地址冲突。可通过网关设备查看各网络节点的IP和MAC的映射关系,查找冲突的IP对应的设备。
- 可能原因六:管理VLAN切换导致设备无法获取IP地址。
注册到iMaster NCE-Campus上的设备会每隔2h自动保存配置。在切换设备的管理VLAN后,如果在下一次自动保存之前发生设备掉电重启,或者对设备执行升级、降级等会引起重启的操作,会导致设备重新切回原先的管理VLAN,造成无法从当前DHCP地址池获取IP地址的现象,从而导致设备脱管。遇到此类状况时,请恢复原有DHCP服务器环境。
- 可能原因七:注册响应报文长度超过设备MTU值,导致设备无法正确处理该报文。
设备和控制器之间的注册交互报文经过网络时,中间网络可能会为报文增加报文头,如经过VXLAN隧道时,会增加VXLAN报文头。现网设备的MTU值普遍为1500,这意味着这些设备能处理的数据报文最大为1500字节。如果由于增加的报文头导致报文实际长度超过1500字节,云化设备会由于报文被丢弃而导致无法注册上线。
- 在租户网络中的任意PC上通过ping <控制器南向地址或域名> /f /l <size>命令,找出可以ping通的边界值。
- 调整网络参数。
- 方法1:修改设备的tcp-mss值,具体请参见对应设备的产品文档。
- 方法2:联系网络服务提供商,调整中间网络设备的MTU值。
相关告警
无
在iMaster NCE-Campus界面上操作失败
故障现象
租户管理员配置业务时,界面弹窗提示配置失败。
可能原因
业务数据冲突或操作不合法。
处理建议
- 如果配置业务后,弹出的界面弹窗有错误信息同时有“详细信息”,单击“详细信息”。
- 根据提示的信息修改配置。如果没有解决,继续如下步骤。
- 在主菜单中选择 。
- 在“操作日志”页签中,以“操作结果”为“失败”为过滤条件,找到失败的操作记录。
- 单击“附加信息”中的文字。在弹出窗口中查看“附加信息”,了解详细失败原因。
- 根据提示信息修改配置。
相关告警
无
业务配置下发失败
故障现象
在“配置结果”页面中,有设备的“配置状态”为“预配置”、“告警”或“失败”。
可能原因
- 可能原因一:设备未上线。
- 可能原因二:下发配置时设备闪断或网络震荡。
- 可能原因三:设备不支持该特性。
- 可能原因四:iMaster NCE-Campus后台异常。
处理建议
- 可能原因一:设备未上线。
如果“配置状态”为“预配置”,说明业务数据未下发。请按如下步骤排查。
- 查看设备状态。
如果设备状态为“未注册”,为正常情况,无需处理。否则请执行下一步。
- 等待10min,刷新并再次查看配置下发结果。
- 如果下发成功,则问题解决。
- 如果“配置状态”仍然为“预配置”,执行下一步。
- 查看设备状态。
- 如果设备不在线,请参考设备上线失败(设备未注册)进行进一步排查。
- 如果设备在线,请联系技术支持人员。
- 查看设备状态。
- 可能原因二:下发配置时设备闪断或网络震荡。
如果“配置状态”为“失败”,且详细错误信息为超时,请按如下步骤排查。
- 查看设备状态。
- 如果设备不在线,请参考设备上线失败(设备未注册)进行进一步排查。
- 如果设备在线,执行下一步。
- 单击“失败重下发”。
如果“配置状态”为“失败”,且详细错误信息为“配置服务异常,请联系华为工程师(内部服务未初始化)”,请按如下步骤排查。
- 如果配置结果为失败,查看服务是否重启成功。
- 若服务未重启成功,等待服务重启成功,再勾选设备,单击“失败重下发”。
- 查看设备状态。
- 可能原因三:设备不支持该特性。
如果“配置状态”为“告警”,请按如下步骤排查。
- 单击
展开详情。
- 找到“状态”为“告警”的特性,单击“查看详情”。
- 如果错误信息为“设备当前款型或版本不支持该功能。”,说明设备不支持该特性。请将设备升级到支持该特性的版本后重试。
- 其他情形,请联系技术支持人员。
- 单击
- 可能原因四:iMaster NCE-Campus后台异常。
如果“配置状态”为“失败”、且详细错误信息为“配置服务异常,请联系维护人员解决”,请按如下步骤处理。
- 将存在上述问题的设备从所属站点中移除,并重新添加回该站点。
- 再次检查配置下发结果,确认问题是否已解决。
如果未解决,请联系技术支持人员。
相关告警
无
配置已下发到设备,但配置结果却显示失败
故障现象
配置已下发到设备,而iMaster NCE-Campus界面上的配置结果却显示失败。
可能原因
- 可能原因一:配置下发到设备后,配置成功的响应报文未能发送回控制器,导致控制器认为配置超时而显示错误的配置结果。
- 可能原因二:设备第一次上线或重启时,控制器会下发该设备的全量业务数据报文。如果设备有残留的配置数据,或版本不配套,会造成下发失败,从而导致配置结果显示为失败。通过清除残留配置或升级版本来解决这些问题后,设备重新上线时,控制器会重新下发全量业务数据报文,配置会在设备上生效,但配置结果仍显示为失败。
处理建议
- 在主菜单中选择 。
- 找到目标设备,在“操作”列单击“重新下发”。
相关告警
无
终端设备无法从DHCP服务器获取IP地址
故障现象
交换机设备作为DHCP服务器。
租户登录iMaster NCE-Campus,进入“监控 > 网络监控 > 终端”页面,查看在线用户列表和历史在线用户列表,部分在线用户无法显示IP地址。
可能原因
终端设备无法从DHCP服务器获取IP地址。
处理建议
可能原因 |
定位思路 |
解决办法 |
---|---|---|
没有开启DHCP功能 |
在用户视图下,执行命令display current-configuration | include dhcp enable,查看DHCP功能是否开启。如果无显示,则表示DHCP功能未开启。 |
在系统视图下,执行命令dhcp enable,开启DHCP功能。 缺省情况下,系统未开启DHCP功能。 |
配置不正确 |
针对DHCP服务器:
针对DHCP中继:
|
针对DHCP服务器:
针对DHCP中继:
|
地址池中无可供分配的地址 |
执行命令display ip pool查看地址池中是否有可用的IP地址,显示信息中的“Idle(Expired)”字段表示地址池中空闲的IP地址数量。如果显示为0,表示地址池中无可供分配的地址。 |
确定网络中客户端的数目:
例如,针对咖啡厅等人员流动大的场所,设备作为DHCP服务器缺省租期为1天,咖啡厅的客户端大部分为客人的手机,客人待在咖啡厅的时间不会超过1天,因此,这种情况下,需要适当减小地址池租期。 |
某些无盘工作站的上层接入设备上开启了STP功能 |
客户端发送DHCP请求报文的超时时间小于STP收敛的时间,会导致服务器无法接收DHCP请求报文,从而无法为无盘工作站分配IP地址。 |
在上层接入设备上去开启STP功能。 |
网络中其他主机手工配置了IP地址,DHCP服务器部署没有把此IP地址从地址池中排除出去,造成IP地址冲突 |
禁用客户端的网卡或断开网线,从另外一台主机上执行ping操作,检查网络中是否已经存在该IP地址的主机。如果收到响应,说明此IP地址已经被手工配置。 |
为避免客户端获取的IP地址冲突,可以在DHCP服务器上配置分配IP地址时的冲突探测功能,探测到地址冲突后,会分配其他可用的IP地址。 |
Eth-trunk上行时,设备故障替换后网络不通
故障现象
设备通过Eth-trunk接口上行,业务已经部署成功。设备故障替换后,网络不通无法自动纳管。
可能原因
- 可能原因一:上游设备下行Eth-trunk接口未使能Eth-trunk自协商。
- 可能原因二:上游设备下行Eth-trunk接口的工作模式为LACP,下游设备还未配置Eth-trunk,导致网络不通。
- 可能原因三:上游设备下行Eth-trunk接口的工作模式为手工模式,下游设备还未配置Eth-trunk同时存在多条链路,形成环路,STP不支持Eth-Trunk接口对接多条物理口的场景无法破环,导致下游设备网络不通。
处理建议
- 可能原因一:上游设备下行Eth-trunk接口未使能Eth-trunk自协商。
- 在主菜单中选择 。
- 在左上角“站点”下拉框中选择站点,将该站点设为操作对象。
- 选择“站点配置”页签。
- 在左侧导航中选择 。
- 选取待配置的目标设备,选择聚合口,使能“Eth-Trunk自协商”。
- 可能原因二:上游设备下行Eth-trunk接口的工作模式为LACP,下游设备还未配置Eth-trunk,导致网络不通。
- 可能原因三:上游设备下行Eth-trunk接口的工作模式为手工模式,下游设备还未配置Eth-trunk同时存在多条链路,形成环路,STP不支持Eth-Trunk接口对接多条物理口的场景无法破环,导致下游设备网络不通。
- 在主菜单中选择 。
- 在左上角“站点”下拉框中选择站点,将该站点设为操作对象。
- 选择“站点配置”页签。
- 在左侧导航中选择 。
- 选取待配置的目标设备,选择聚合口。配置上游设备下行Eth-Trunk接口的“工作模式”为“手工模式”,并使能“管理状态”。
- 选择上游设备下行Eth-Trunk接口,只保留1个成员口的“管理状态”为使能,将其他成员口的“管理状态”去使能。
- 下游设备自动上线纳管。
- 将下游设备的对应接口聚合为Eth-trunk接口。
- 将上游设备下行Eth-Trunk接口的所有成员口的管理状态使能。
WAN网络业务配置
WAN站点设备上线失败(设备离线)
故障现象
设备离线。
选择“设备”页签页面中,有设备的“状态”为“离线”。
,在可能原因
- 可能原因一:设备重启或者掉电。
- 可能原因二:设备所在的集群节点重启。
- 可能原因三:邮件开局场景下,用户的上网方式与iMaster NCE-Campus在“站点”特性中配置的“接口协议类型”不一致,同时在PC上进行邮件开局时修改了邮件开局的配置参数。
- 可能原因四:CPE所在的Underlay网络不通,如网络欠费、网线脱落等。
处理建议
- 可能原因一:设备重启或者掉电。
等待设备重启完毕或者设备重新上电。
- 可能原因二:设备所在的集群节点重启。
- 设备日志只能上传到系统日志中心,请登录Syslog服务器,在系统日志中心查看设备上线失败详情,如果日志详情中提示“设备附着的云管理服务器重启”,说明是集群节点重启导致的设备离线。
- 等待5分钟,待集群节点重启完成后,节点下的设备会自动上线。
- 判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请联系技术支持人员。
- 可能原因三:邮件开局场景下,用户的上网方式与iMaster NCE-Campus在“站点”特性中配置的“接口协议类型”不一致,同时在PC上进行邮件开局时在邮件开局界面修改了邮件开局的配置参数。
- 确认用户的实际的上网方式。
- 修改“站点”中“接口协议类型”、“链路接入网络方式”等上网方式相关的配置参数,与用户的实际的上网方式一致。
- 重新进行邮件开局。进行邮件开局时,不能修改邮件开局的配置参数,配置界面如图3-40所示。
- 可能原因四:CPE所在的Underlay网络不通,如网络欠费、网线脱落等。
- 连接自己的电脑到WAN侧网络的接口,并查看连通性。
- 查看CPE的WAN侧连线是否正确。
相关告警
无
创建站点后无法收到开局邮件
故障现象
租户管理员配置邮件开局后无法收到开局邮件,从而无法实现邮件开局。
可能原因
- 可能原因一:对于租户运营模式(系统管理员-租户),系统管理员未配置邮件服务器或配置错误。
- 可能原因二:iMaster NCE-Campus所在的集群节点无法ping通SMTP服务器的IP地址/域名,或者没有打开SMTP服务器使用的端口。
- 可能原因三:iMaster NCE-Campus对于MSP运营模式(系统管理员-MSP-租户),MSP管理员和系统管理员均未配置邮件服务器或配置错误。
处理建议
- 可能原因一:对于租户运营模式(系统管理员-租户),系统管理员未配置邮件服务器或配置错误。
- 重新配置邮件服务器参数。
如下以租户运营模式为例介绍配置邮件服务器的操作。
- 使用系统管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择“邮件服务器”。 ,单击
- 重新配置邮件服务器参数,单击“测试”。
- 如果界面提示“测试成功”,并且能收到测试邮件,说明配置成功。单击“保存”。
- 如果界面提示“测试成功”,却无法收到测试邮件,请确认SMTP服务器的邮件功能是否正常。
- 如果界面提示“配置测试失败”,请检查上述参数配置是否有误。
- 受网络质量和SMTP服务器性能的影响,收到测试邮件之前可能稍有时延,但最多不超过2分钟。
- 部分SMTP服务商针对第三方应用接入场景设置了权限控制功能。如果测试失败,请确认是否已在SMTP服务器侧开通第三方应用接入功能,并将“密码”设置为SMTP服务器侧对应的授权密码。
- 修改站点信息,重新发送开局邮件。
- 使用租户管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择 。
- 单击“ZTP”页签。
- 单击“发送邮件”重新配置邮件开局功能,并单击“确认”确认是否可以收到对应CPE设备的开局邮件。
如果仍无法收到邮件,请联系技术支持人员。
- 修改其他所有站点,重新发送开局邮件。
- 重新配置邮件服务器参数。
- 可能原因二:iMaster NCE-Campus所在的集群节点无法ping通SMTP服务器的IP地址/域名,或者没有打开SMTP服务器使用的端口。
- 在iMaster NCE-Campus所有的集群节点上ping SMTP服务器的IP/域名。
- 如果能ping通。直接执行4。
- 如果不能ping通。需要在防火墙中或者在基础网络配置中开放SMTP服务器的IP/域名。
- 检查端口是否开放。如果端口没有开放,需要在防火墙中或者在基础网络配置中开放端口。
iMaster NCE-Campus与SMTP服务器交互的端口,可参考《通信矩阵》获取。
相关告警
无
WAN业务配置下发失败(配置结果的"状态"为"预配置")
故障现象
在主菜单中选择“配置状态”为“预配置”。
界面,有站点的可能原因
站点设备未上线。
处理建议
如果“配置状态”为“预配置”,说明业务数据未下发。请按如下步骤排查。
- 选择
- 如果设备“状态”为“未注册”,请参考设备上线失败(设备未注册)进行进一步排查。
- 否则,等待10min并执行下一步。
,按站点名称找到对应设备。 - 选择
- 如果下发成功,则问题解决。
- 如果“配置状态”仍然为“预配置”,请联系技术支持人员。
,再次查看配置状态。
相关告警
无
WAN业务配置下发失败(配置结果的"状态"为"失败")
故障现象
在“配置状态”为“失败”。
页面中,有站点的可能原因
- 可能原因一:下发配置时设备闪断或网络震荡。
- 可能原因二:配置站点的WAN侧、双网关之间、双中心站点之间或者LAN侧的链路时,选择了错误的接口类型。
- 可能原因三:设备上的SA特征库版本未更新。
- 可能原因四:开局前,设备配置有残留。
处理建议
- 可能原因一:下发配置时设备闪断或网络震荡。
如果“配置状态”为“失败”,且详细错误信息为超时,请按如下步骤排查。
- 选择
- 如果设备“配置状态”为“未注册”,请参考设备上线失败(设备未注册)进行进一步排查。
- 否则,执行下一步。
,按站点名称找到对应设备。 - 选择“失败重下发”。
如果仍然下发失败,请联系技术支持人员。
,单击
- 选择
- 可能原因二:配置站点的WAN侧、双网关之间、双中心站点之间或者LAN侧的链路时,选择了错误的接口类型。
- 手工开局场景,请按照如下步骤处理:
重新修改站点的接口,注意选择正确的接口类型,配置完成后数据将重新下发一次到设备。
- 邮件开局场景,请按照如下步骤处理:
- 重新修改站点的接口,注意选择正确的接口类型。
- 按照中“配置邮件开局”的操作,重新进行一次邮件开局操作。
如果按照如上“配置状态”还是为“失败”,请联系技术支持人员。
- 手工开局场景,请按照如下步骤处理:
- 可能原因三:设备上的SA特征库版本未更新。
- 选择“制定新策略”,在弹出框中选择“立即升级”并点击“确定”。 ,按站点名称找到对应站点。勾选表格内的站点,单击
- 等待表格内站点的状态变为升级完成。此过程视网速、设备型号决定,约二十分钟左右。
如果升级失败,请联系技术支持人员。
- 选择“失败重下发”。 ,单击
- 可能原因四:开局前,设备配置有残留。
确认开局前CPE是否是出厂配置,如果不是,需要先恢复CPE的出厂设置,重新开局。
如果按照如上“配置状态”还是为“失败”,请联系技术支持人员。
相关告警
无
WAN业务配置下发失败(配置结果的"状态"为"告警")
故障现象
在“状态”为“告警”。
页面中,有站点的可能原因
设备不支持该特性。
处理建议
- 选择 。
- 找到“配置状态”为“告警”的设备,单击“查看详情”。
- 如果“错误信息”为“No device adapter package for this policy”,说明设备版本不支持该特性。请将设备升级到支持该特性的版本后重试。
- 其他情形,请联系技术支持人员。
相关告警
无
邮件服务器测试失败
故障现象
使用管理员帐户配置邮件服务器后测试失败。
可能原因
- 可能原因一:邮件服务器不可用。
- 可能原因二:iMaster NCE-Campus上的邮件服务器帐号和密码填写错误。
- 可能原因三:iMaster NCE-Campus所在的集群节点无法ping通SMTP服务器的IP地址/域名,或者没有打开SMTP服务器使用的端口。
处理建议
- 可能原因一:邮件服务器不可用。
- 使用帐号密码登录邮箱,测试接收和发送邮件功能是否正常。
- 确认邮箱的POP3和SMTP服务已开通。
- 如果邮箱不能正常接收和发送邮件,请联系邮件服务器管理员处理。
- 可能原因二:iMaster NCE-Campus上的邮件服务器帐号和密码填写错误。
- 使用系统管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择“邮件服务器”。 ,单击
- 检查“帐号”、“密码”填写是否正确。
- 可能原因三:iMaster NCE-Campus所在的集群节点无法ping通SMTP服务器的IP地址/域名,或者没有打开SMTP服务器使用的端口。
- 在iMaster NCE-Campus所有的集群节点上ping SMTP服务器的IP/域名。
- 如果能ping通。直接执行4。
- 如果不能ping通。需要在防火墙中或者在基础网络配置中开放SMTP服务器的IP/域名。
- 检查端口是否开放,可以通过telnet检查。如果端口没有开放,需要在防火墙中或者在基础网络配置中开放端口。如下以检查IP地址为192.168.68.42,端口号为465的SMTP服务器为例。
telnet 192.168.68.42 465 //当显示如下信息时,表示端口已开放。 Trying 192.168.68.42... Connected to 192.168.68.42. Escape character is '^]'. //当显示如下信息时,表示端口未开放。 Trying 192.168.68.42... telnet: connect to address 192.168.68.42: Connection timed out
iMaster NCE-Campus与SMTP服务器交互的端口,可参考《通信矩阵》获取。
相关告警
无
维护
性能数据展示异常
故障现象
iMaster NCE-Campus界面上,性能监控无数据,且FusionInsight的节点状态异常。
可能原因
FusionInsight重复重启,导致HDFS进入安全模式,HDFS对外只提供只读服务,不提供写服务。
处理步骤
将FusionInsight的HDFS退出安全模式,具体方法请参见https://hadoop.apache.org/docs/r2.4.1/hadoop-project-dist/hadoop-common/CommandsManual.html。
重置密码后未收到密码重置邮件
故障现象
租户管理员重置用户密码后,该用户未收到重置后的密码邮件。
可能原因
- 可能原因一:邮件服务器不可用。
- 可能原因二:iMaster NCE-Campus上用户的邮箱地址填写错误。
- 可能原因三:用户邮箱设置有误。
处理建议
- 可能原因一:邮件服务器不可用。
- 使用系统管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择“邮件服务器”页签。 ,进入
- 单击“测试”,检测邮箱服务器的连通性。
- 如果测试失败,请联系邮件服务器管理员处理。
- 可能原因二:iMaster NCE-Campus上用户的邮箱地址填写错误。
- 使用租户管理员帐号登录iMaster NCE-Campus。
- 在主菜单中选择“基本信息”页签。 ,进入
- 如果邮箱后边有
图标,则说明邮箱未校验,或者邮箱校验未通过。
- 单击邮箱后边“验证”按钮,在弹出窗口中单击“获取验证码”。
- 登录邮箱获取验证码,并填写邮箱验证码,如果邮箱校验通过,则说明邮箱填写正确,邮箱校验失败,说明邮箱错误。
- 如果邮箱填写错误,请单击邮箱后边的
图标修改邮箱。
- 可能原因三:用户邮箱设置有误。
- 使用帐号密码登录邮箱,测试接收邮件功能是否正常。
- 检查密码邮件是否被放入邮箱的“垃圾邮件”。
- 如果邮箱不能正常接收邮件,请联系邮件服务器管理员处理。
相关告警
无
设备升级失败
下载失败或设备和服务器之间网络不可达
故障现象
进入“升级详情”页面中查看到失败原因为“下载失败或设备和服务器之间网络不可达”。
菜单,在 页面中升级状态列查看到“设备升级失败”,并且在可能原因
- FusionInsight故障。
- 设备和文件服务器之间网络不通,或者文件服务器和FusionInsight之间网络不通。
- 设备和iMaster NCE-Campus中间有防火墙,防火墙上未放行HTTPS协议报文。
- 设备和文件服务器证书认证失败,导致HTTPS建立下载连接失败。
处理步骤
- 登录FusionInsight,查看FusionInsight是否有异常。
- 检查设备和文件服务器之间、文件服务器和FusionInsight之间的网络连通性,检查IP地址是否可以Ping通,检查18021/18020端口连通性。
- 登录防火墙,在连接设备和iMaster NCE-Campus接口下允许HTTPS协议报文通过。
- 检查设备证书是否过期,如果过期,请重新加载证书。
相关告警
无
通信失败或通信异常
故障现象
进入“升级详情”页面中查看到失败原因为“通信失败”或“通信异常”。
菜单,在 页面中升级状态列查看到“设备升级失败”,并且在可能原因
NETCONF报文发送失败,报文丢失或者设备未及时返回响应报文。
处理步骤
查看设备日志,查看设备是否正常收到NETCONF下发的报文,如果未收到,请排查网络问题。
相关告警
无
下发报文失败
故障现象
进入“升级详情”页面中查看到失败原因为“下发报文失败”。
菜单,在 页面中升级状态列查看到“设备升级失败”,并且在可能原因
设备返回的报文格式有问题或获取NETCONF服务失败。
处理步骤
- 打开设备日志,查看设备收发的报文是否有异常。
- 检查iMaster NCE-Campus涉及报文交互的模块是否正常。
相关告警
无
查询进度失败
故障现象
在“升级详情”页面中查看到失败原因为“查询进度失败”。
中的升级状态列查看到“设备升级失败”,并且在可能原因
设备返回报文格式有问题或获取NETCONF服务失败。
处理步骤
- 打开设备日志,查看设备收发的报文是否有异常。
- 检查iMaster NCE-Campus涉及报文交互的模块是否正常。
相关告警
无
取消下载失败
故障现象
进入“升级详情”页面中查看到失败原因为“取消下载失败”。
菜单,在 页面中升级状态列查看到“设备升级失败”,并且在可能原因
网络问题导致设备未正确响应取消下载报文,导致取消升级失败
处理步骤
重新点击“取消下载”重新进行取消升级。
相关告警
无
iMaster NCE-Campus无法展示性能监控数据
故障现象
iMaster NCE-Campus无法展示性能监控数据。
可能原因
新安装的6.5.1.6版本,且Spark2x任务的Token过期。
- 查看FusionIinsight是新安装的6.5.1.6版本。
- 进入yarn界面的任务列表,搜索yarn日志,有“Token has expired”日志。
处理建议
- 修改FusionIinsight参数。
- 登录FusionIinsight, 选择在主菜单中单击 。
- 单击“配置”页签,单击“全部配置”页签,在左侧导航树选择“SparkResource2x > 自定义”。设置custom,名称写“spark.security.credentials.renewalRatio”,值填写“ 0.000000000007”。
如果有下面的提示,可以直接关闭。
- 在左侧导航树选择“JDBCServer2x > 自定义”。设置custom,名称写“spark.security.credentials.renewalRatio”,值填写“ 0.000000000007”。
- 单击左上角的“保存”,在弹出窗口中“确认”,等待约1分钟,保存成功。
- 单击
- 使用“sopuser”用户登录iMaster NCE-Campus后台,切换到“root”用户。查看是否存在“/opt/hadoopclient/Spark2x/spark/conf”目录,如果存在,则执行以下命令,如果不存在,则无需执行以下命令。
sed -i '$aspark.security.credentials.renewalRatio = 0.000000000007' spark-defaults.conf
- 重启“CampusPerfService”服务。登录iMaster NCE-Campus,单击 ,单击“服务”页签,搜索“CampusPerfService”,选择对应的服务,单击“停止”,然后再单击“启动”。
- 重启Spark任务。
- 登录FusionIinsight, 选择在主菜单中单击
- 单击“ResourceManager(主)”,进入到Spark任务的页面。
- 在左侧导航树单击“RUNNING”,可以查看到正在运行的任务,点击任务ID进入到任务里面,点击“kill Application”,将任务杀掉。
- 重复以上步骤,把所有“RUNNING”的任务都kill。
- 登录FusionIinsight, 选择在主菜单中单击
虚拟机或物理服务器异常
iMaster NCE-Campus无法显示告警信息/无法显示性能数据/设备上下线日志显示为空/设备软件升级失败/无法执行对租户、设备和站点的增/删/改操作
故障现象
在iMaster NCE-Campus上出现如下现象:
- 无法显示任何告警信息
- 无法显示性能数据
- 设备上下线日志显示为空
- 设备软件升级失败
- 无法执行对租户、设备和站点的增/删/改操作
可能原因
FusionInsight所在虚拟机/物理服务器半数以上未启动。
处理建议
- 如果有半数以上未启动,请启动后重试。
- 如果已有半数以上节点已启动,请联系技术支持人员进一步排查。
相关告警
无
服务器掉电恢复后,虚拟机在启动过程中无法进入操作系统
故障现象
虚拟机在启动过程中无法进入操作系统。在FusionCompute上通过VNC登录虚拟机,看到有如下异常信息:
可能原因
文件系统损坏。
处理建议
- 在FusionCompute上通过VNC登录故障虚拟机和部署了相同应用的一台正常虚拟机(例如,假设FusionInsight的一个节点故障,则通过VNC分别以“root”用户登录到故障节点和一个正常FusionInsight节点),分别使用df -T查看文件系统。
与正常虚拟机相比较,检查故障虚拟机是否缺少文件系统。以下图为例,可以看到右侧窗口中的虚拟机上丢失了“/srv/BigData”分区,对应文件系统为“/dev/mapper/oss_vg-srv_bigdata”。
- 如果并无差异,请联系技术支持人员进行进一步定位。
- 如果故障虚拟机缺少文件系统,在该虚拟机上编辑“/etc/fstab”,将损坏的文件系统用#号注释掉,并执行reboot命令重启虚拟机,即可正常进入操作系统。
- 在故障虚拟机上,对损坏的文件系统进行修复。
- 对于ext3类型的文件系统,使用fsck命令对损坏的文件系统进行修复。
命令格式:fsck <文件系统名称>
例如:fsck /dev/mapper/oss_vg-srv_bigdata
在修复的过程中,fsck会对文件节点进行检查,并提示fix或者clear。- 如果提示为fix,直接敲回车或者输入“y”确认修改。
- 如果提示为clear,输入“n”,不清理。
如果在提示clear时输入“y”,有可能导致文件丢失。只有当普通手段无法修复时,请在技术支持人员的指导下选择clear。
- 对于xfs类型的文件系统,使用xfs_repair命令对损坏的文件系统进行修复。
命令格式:xfs_repair <文件系统名称>
例如:xfs_repair /dev/mapper/oss_vg-srv_bigdata
如果使用xfs_repair修复失败(如下图所示),按照提示使用xfs_repair -L来修复。
命令格式:xfs_repair -L <文件系统名>
例如:xfs_repair -L /dev/mapper/oss_vg-srv_bigdata
使用“-L”参数有可能会导致部分数据无法恢复。只有在xfs_repair命令无法修复时,再在技术支持人员的指导下使用该方式修复文件系统。
- 对于ext3类型的文件系统,使用fsck命令对损坏的文件系统进行修复。
- 文件系统修复成功之后,再次编辑/etc/fstab,将之前注释的文件系统恢复,并执行reboot重启。
- 启动完成后,使用df -T检查文件系统是否恢复正常。
- 在该虚拟机上重启服务。
- 对于iMaster NCE-Campus,可以通过如下命令执行重启。
su - ossadm -c ". /opt/oss/manager/agent/bin/engr_profile.sh;ipmc_adm -cmd startnode"
- 对于FusionInsight,可以通过如下命令执行重启。
# su - omm $ cd /opt/huawei/Bigdata/om-0.0.1/sbin $ ./restart-oms.sh
- 对于iMaster NCE-Campus,可以通过如下命令执行重启。
- 判断故障是否解决。如果已经解决,结束故障处理;如果没有解决,请联系技术支持人员。
相关告警
无
内存不足导致VM自动重启
故障现象
内存使用率高,超过阈值告警,并且节点发生自动重启。
可能原因
查看“/proc/sys/vm/panic_on_oom”文件,如果内容为“2”,当系统内存不足时,会触发节点重启。
处理建议
- 以sopuser用户登录服务器,执行su - root切换至root用户。
- 使用top命令,使用 按内存排序。
- 找到内存占用较大的进程,进行排查。
- 如果是非控制器进程,例如客户自己开的进程占用内存较多,需要停止于控制器无关的进程。
- 如果是控制器进程占用较多,请联系华为技术支持人员处理。
相关告警
无
FusionCompute虚拟机后台无法登录
故障现象
从后台登录虚拟机,无法登录,显示如下。
在CNA上检查虚拟机状态,显示paused状态。
可能原因
FusionCompute开启了内存复用开关功能,需要关闭掉此功能。
处理建议
- 登录FusionCompute管理系统,缺省登录用户名为“admin”。
首次登录请按照系统提示修改密码。
配置IE浏览器时,如果没有安装安全证书,在首次登录FusionCompute系统或VNC登录虚拟机时,可能会提示无法显示网页,此时按F5刷新浏览器页面后可正常登录。
系统兼容的浏览器类型和版本如下:Internet Explorer 10以上
Google Chrome 55以上
Mozilla Firefox 50以上
- 在FusionCompute左侧导航中,单击
,进入“资源池”页面。
- 在“集群”页签单击待配置的集群名称,显示“概要”页签。
- 在“主机”页签,查看主机的内存占用率。
内存占用率低于100%,才能关闭内存复用功能。
- 在“配置”页签,选择“配置 > 集群资源控制”。
- 在页面右侧单击“编辑”,在“基本配置”中,单击“主机内存复用”对应的“关闭”。
- 单击“确定”。
- 在“概要”页签,确认内存复用功能未开启。
- 依次将该集群下所有主机上的虚拟机关机再开机。
- 虚拟机需要逐个停启,且需要先关机再开机,不能直接重启。
- 一个主机上的两个虚拟机(一个控制器和一个FusionInsight)完全启动好之后,再进行下一个主机上的虚拟机的停启。请在控制器的管理面查看所有服务状态正常,登录FusionInsight管理页面查看所有服务正常。
- 建议先停止第三个控制器节点和FusionInsight节点。
FusionInsight故障
FusionInsight异常下电导致数据盘损坏
故障现象
服务器掉电,FusionInsight管理面无法登录,管理浮动IP不通。FusionInsight集群三个节点,只有一个节点后台可以登录。
可能原因
FusionInsight异常下电导致数据盘损坏。
处理建议
- 登录服务器。
以omm用户登录服务器,并切换到root用户。可查看/etc/fstab文件,如下所示表示为ext4方式挂载的磁盘。
- 取消挂载磁盘。
将“/etc/fstab”文件中的上图中的五行注释掉,重启虚拟机。
- 修复硬盘。若磁盘挂载方式为ext4(ext3同理,将命令修改为ext3),采用如下命令进行修复。
fsck.ext4 -y -f /dev/oss_vg/srv_bigdata fsck.ext4 -y -f /dev/oss_vg/opt_huawei_bigdata fsck.ext4 -f -y /dev/oss_vg/var_log_bigdata fsck.ext4 -f -y /dev/oss_vg/hadoop_bigdata fsck.ext4 -f -y /dev/oss_vg/kafka_bigdata
若磁盘挂载方式为xfs,采用如下命令进行修复。
xfs_repair -L /dev/oss_vg/var_log_bigdata xfs_repair -L /dev/oss_vg/opt_huawei_bigdata xfs_repair -L /dev/oss_vg/srv_bigdata xfs_repair -L /dev/oss_vg/hadoop_bigdata xfs_repair -L /dev/oss_vg/kafka_bigdata
修复时间与磁盘大小相关。
- 重新挂载磁盘。
将“/etc/fstab”文件中下图的五行取消注释,重新启动虚拟机。
- 重启虚拟机,查看oms和管理面服务状态。
登录故障节点,执行如下操作。
cd /opt/huawei/Bigdata/omm-0.0.1/sbin/ sh status-oms.sh
oms状态恢复正常,无需进行以下操作。oms状态存在异常,管理面服务异常,备节点gaussDB一致显示异常(异常显示Exception)。 FusionInsight数据盘存在坏道,需进行后面的操作步骤。
- 停止FusionInsight所有服务。
登录FusionInsight管理面,选择
,停止所有服务。 - 备份数据。
备份“/opt/huawei”、“/var/log/Bigdata”和“/srv/BigData”目录下的数据。
进入到相对应的目录下,将数据进行打包压缩,备份到空间足够的空间(由于可能数据过大,推荐其他服务器)。
cd /opt/huawei tar -cvf opt_huawei_bigdata.tar.gz *
cd /var/log/Bigdata tar -cvf var_log_bigdata.tar.gz *
cd /srv/BigData tar -cvf srv_bigdata.tar.gz *
- 删除数据盘,登录故障节点,将/etc/fstab文件中原来挂载的BigData磁盘信息注释。
- 创建新数据盘。
以下分别通过Fusion Compute界面介绍创建新数据盘流程。
- Fusion Compute界面操作流程。
- 解除原有的数据盘绑定。
登录Fusion Compute界面,单击“更多”,单击“解绑定”。完成解除原有的数据盘绑定。
- 删除原有的数据盘。
选择
。完成删除原有的数据盘。 - 添加新数据盘。
单击“确定”。完成添加新的数据盘。
,设置和原有数据盘相同的基础信息,单击
- 在故障节点以root用户执行df -h命令,查看到原先的磁盘分区已经删除,并且有新的磁盘。
- 恢复磁盘分区。
- 从“Easysuite安装目录/var/software/install_FI_check.zip”包中取出“comm_lib.sh”和“create_vol.sh”两个脚本放到待恢复节点的某个目录下(例如/tmp),执行fdisk -l查看刚刚新建的磁盘名称。
- 执行命令sh create_vol.sh /dev/sdb,看到如下图所示,磁盘分区成功。
- 从“Easysuite安装目录/var/software/install_FI_check.zip”包中取出“comm_lib.sh”和“create_vol.sh”两个脚本放到待恢复节点的某个目录下(例如/tmp),执行fdisk -l查看刚刚新建的磁盘名称。
- 恢复数据盘数据。
- 登录备份服务器,将备份的数据发送到待恢复节点对应的目录下,然后解压。
scp -r opt_huawei_bigdata.tar.gz root@FusionInsight IP address:/opt/huawei
scp -r srv_bigdata.tar.gz root@FusionInsight IP address:/srv/BigData
scp -r var_log_bigdata.tar.gz root@FusionInsight IP address:/var/log/Bigdata
- 登录故障节点,解压文件。
cd /opt/hawei tar -xvf opt_huawei_bigdata.tar.gz cd /srv/BigData tar -xvf srv_bigdata.tar.gz cd /var/log/Bigdata tar -xvf var_log_bigdata.tar.gz
- 修改“/srv/BigData”和“/var/log/Bigdata”目录的权限。
chown omm:ficommon /srv/BigData chown omm:ficommon /var/log/Bigdata/ chmod 770 /srv/BigData/ chmod o+t /srv/BigData/ chmod 770 /var/log/BigData/
- 登录备份服务器,将备份的数据发送到待恢复节点对应的目录下,然后解压。
- 登录管理节点,查看oms状态。
执行cd /opt/huawei/Bigdata/om-0.0.1/sbin命令到目录下,再执行status-oms.sh命令,查看oms状态,若如下图所示则正常。
- FusionInsight服务。
登录FusionInsight管理面,选择
,启动服务。
FusionInsight异常下电导致Hbase服务故障
故障现象
服务器掉电恢复后,FusionInsight管理面登录后,一直存在Hbase故障,无法自动修复,如下图所示:
可能原因
FusionInsight异常下电导致hdfs文件损坏。
处理建议
- 以 sopuser用户登录iMaster NCE-Campus后台任一节点,并切换到root用户登录,通过执行如下命令检查hdfs文件。
su ossuser cd /opt/hadoopclient source bigdata_env hdfs fsck /
会列出损坏的文件,如下图所示:
使用“sopuser”用户登录服务器,执行su - root命令切换到“root”用户。
- 执行如下命令,清理坏块,其中文件路径根据上步查询结果来处理。
hdfs dfs -mv /hbase/data/default/t_campus_performance_original/b87c82f8eea159ed6052b5701ecaacb8/f/25756da69916446898c398d72885735e /tmp/
hdfs dfs -mv /hbase/data/default/t_sdwan_performance_siteapp_netstream_original/3d8c30eb39afb49b77c5c8f172f4e69c/f/c08caac47ad54a339eddd3408daad17c /tmp/
- 修复hbase region。
hbase shell assign 'b87c82f8eea159ed6052b5701ecaacb8' assign '3d8c30eb39afb49b77c5c8f172f4e69c'
等候3分钟, 再次登录FusionInsight界面,查看Hbase故障已经消失,则修复成功。
基础操作故障
安全管理故障
介绍如何处理安全管理的故障。
admin用户无法成功登录业务面
现象描述及可能原因
根据表3-133中admin用户登录业务面时的现象描述,查询故障的可能原因。
现象描述 |
可能原因 |
处理步骤 |
---|---|---|
提示禁止当前用户从本机登录。 |
|
|
提示本用户的在线会话数达到上限。 |
admin用户达到最大在线会话数后被限制登录。 |
等待其他admin用户注销会话。 |
提示系统登录模式为单用户模式。 |
系统管理员将系统登录模式设置为单用户模式。 |
等待系统管理员维护操作完成,并将系统登录模式设置为多用户模式。 |
提示当前登录IP地址被锁定。 |
admin用户使用错误密码连续登录失败次数达到系统限制,IP地址被锁定。 |
|
如果以上措施无法解决故障,请联系系统管理员处理。
建议与总结
- 如果使用命令工具停用admin用户,可能导致admin用户无法登录,请谨慎使用。
- 如果给admin用户设置登录IP地址控制策略,可能导致不在admin用户绑定的IP地址范围内的admin用户被强制退出,无法登录,请谨慎设置。
- 建议设置合适的admin用户在线会话数限制策略。
- 如果给admin用户设置达到最大在线会话数后限制登录,当登录的admin用户数量达到上限时,可能导致admin用户无法登录,请谨慎设置。
- 如果已经设置的admin用户在线会话数限制策略不满足用户使用,建议在用户管理中修改。
- 修改admin用户的最大在线会话数。
- 修改admin用户达到最大在线会话数后的登录方式为“注销会话”。
- 如果已经设置的admin用户在线会话数限制策略无需修改,可在用户管理中强制注销admin用户的在线会话。
- 当需要对系统进行维护操作时,可以将登录模式设置为单用户模式。切换到单用户模式后,只允许一个admin用户通过一个客户端登录,其他所有的在线用户将被强制退出。为避免影响其他人正常使用系统,在单用户模式下完成维护操作后,请及时切换为多用户模式。
- 如果已经设置的IP锁定策略不满足用户使用,建议在帐号策略中修改。
非admin用户无法成功登录业务面
现象描述及可能原因
根据表3-134中用户登录业务面时的现象描述,查询故障的可能原因。
现象描述 |
可能原因 |
处理步骤 |
---|---|---|
提示用户被停用。 |
|
|
提示在线会话数达到上限。 |
用户达到最大在线会话数后被限制登录。 |
|
提示禁止当前用户在该时间段内登录。 |
用户当前登录时间点不在用户绑定的登录时间控制策略范围内。 |
|
提示禁止当前用户从本机登录。 |
|
|
提示用户被锁定,还需XXX分钟自动解锁。 说明:
XXX代表用户被锁定的剩余时间。 |
用户使用错误密码连续登录失败次数达到系统限制,用户被锁定,且“帐户解锁设置”设置为会自动解锁。 |
|
提示用户被锁定,联系管理员解锁。 |
用户使用错误密码连续登录失败次数达到系统限制,用户被锁定,且“帐户解锁设置”设置为需要手动解锁。 |
|
提示当前登录IP地址被锁定。 |
用户使用错误密码连续登录失败次数达到系统限制,IP地址被锁定。 |
|
提示系统登录模式为单用户模式。 |
系统管理员将系统登录模式设置为单用户模式。 |
等待系统管理员维护操作完成,并将系统登录模式设置为多用户模式。 |
提示密码已过期,修改密码时提示用户不允许修改密码。 |
用户密码已过期,且安全管理员设置用户不能修改密码。 |
|
提示请输入正确的用户名和密码。 |
|
如果以上措施无法解决故障,请联系系统管理员处理。
处理步骤
- 提示用户被停用。
- 以安全管理员登录业务面。
如果是安全管理员无法登录,需要以admin用户登录业务面,执行以下步骤。
- 在主菜单中选择 。
- 在左侧导航树中选择“用户”。
- 在用户列表中,单击目标用户“操作”列的“启用”,启用该用户。
- 单击目标用户名,在“基本信息”页签下,单击“修改”。
- 展开“高级设置”,设置合适的用户策略,排除故障。
- 修改“帐户可登录次数”。
- 修改“帐户有效期”。
- 修改“启用未登录用户策略”。
- 单击“确定”。
- 以安全管理员登录业务面。
- 提示在线会话数达到上限。
- 等待该用户的其他会话注销。
- 修改该用户的最大在线会话数策略。
- 以安全管理员登录业务面。
如果是安全管理员无法登录,需要以admin用户登录业务面,执行以下步骤。
- 在主菜单中选择 。
- 在左侧导航树中选择“用户”,并在用户列表中单击目标用户名。
- 在“基本信息”页签下展开高级设置,单击“修改”。
- 执行如下操作,排除故障。
- 修改“最大在线会话数”。
- 修改“达到最大在线会话数后的登录方式”为“注销会话”。
- 单击“确定”。
- 以安全管理员登录业务面。
- 强制注销该用户的在线用户会话。
- 以安全管理员登录业务面。
如果是安全管理员无法登录,需要以admin用户登录业务面,执行以下步骤。
- 在主菜单中选择 。
- 在左侧导航树中选择“查看在线用户”。
- 在列表中,选择需要注销的目标用户会话,单击“操作”列的“强制注销”。
- 以安全管理员登录业务面。
- 提示禁止当前用户在该时间段内登录。
- 以安全管理员登录业务面。
如果是安全管理员无法登录,需要以admin用户登录业务面,执行以下步骤。
- 在主菜单中选择 。
- 在左侧导航树中选择“用户”。
- 在用户列表中单击目标用户名,在“访问控制”页签查看该用户所绑定的登录时间控制策略。
- 单击“修改”,查看是否存在符合需求的时间策略。
- 存在,直接选择对应的时间策略,单击“确定”。
- 不存在,单击“创建”,创建新的时间策略,单击“确定”。
- 以安全管理员登录业务面。
- 提示禁止当前用户从本机登录。
- 提示用户被锁定,还需XXX分钟自动解锁。
- 提示密码已过期,修改密码时提示用户不允许修改密码。
- 以安全管理员登录业务面。
如果是安全管理员无法登录,需要以admin用户登录业务面,执行以下步骤。
- 在主菜单中选择 。
- 在左侧导航树中选择“用户”。
- 执行如下操作,排除故障。
- 在用户列表中,单击目标用户“操作”列的“重置密码”,输入新密码。
- 在用户列表中单击目标用户名,在“基本信息”页签下展开高级设置,单击“修改”。
- 关闭“用户不能更改密码”策略。
- 修改“启用密码修改时间策略”。
- 单击“确定”。
- 以安全管理员登录业务面。
- 提示请输入正确的用户名和密码。
- 检查该用户是否存在。
- 以安全管理员登录业务面。
如果是安全管理员无法登录,需要以admin用户登录业务面,执行以下步骤。
- 在主菜单中选择 。
- 在左侧导航树中选择“用户”。在用户列表中,查看目标用户是否存在。
- 存在,执行2。
- 不存在,创建用户或使用已存在的用户登录业务面。
- 以安全管理员登录业务面。
- 检查系统是否已开启远端认证且不支持本地用户认证。
- 根据使用场景确认是否继续使用远端认证。
- 是,开启“支持本地用户认证”,单击“应用”。
- 如果开启的是LDAP认证且“用户认证方式”为“固定用户”时,选中“支持本地用户认证”后,“管理员密码”会被清空,需重新输入。
- 如果开启的是RADIUS认证,选中“支持本地用户认证”后,“共享密钥”会被清空,需重新输入。
- 否,切换到“本地认证”,单击“应用”。
- 是,开启“支持本地用户认证”,单击“应用”。
- 如果用户依然无法登录,在用户列表中,单击目标用户“操作”列的“重置密码”,重置该用户的密码。
- 检查该用户是否存在。
建议与总结
- 如果已设置的“安全策略”不满足用户使用,建议在“安全策略”中修改“帐号策略”页面的“启用帐号停用策略”、“启用帐号锁定策略”和“启用IP锁定策略”,或“密码策略”页面的“密码过期强制修改策略”。
- 如果已经设置的未登录用户策略不满足用户使用,建议在帐号策略中修改。满足用户未登录用户策略的用户被删除后系统无法恢复,请谨慎设置。
上传文件时,长时间停留在正在导入状态
现象描述
使用Firefox浏览器,执行文件上传时,例如:批量导入用户、批量创建角色、上传密码字典等,界面长时间停留在正在导入状态,最终上传失败。
可能原因
使用Firefox浏览器,执行文件上传过程中,对已在界面上选择的文件进行修改而使文件发生变化,导致浏览器无法正确获取已选择文件的信息。
处理步骤
在文件上传界面,删除已选择的文件,重新选择文件上传。
建议与总结
- 由于Firefox浏览器的原因,在使用Firefox浏览器执行文件上传时,不能对已选择的上传文件进行修改,否则将导致上传文件失败。
- 建议使用其他浏览器避免此问题。
Agile Controller-Campus日志的时间与客户端时间不一致
现象描述
查看Agile Controller-Campus日志时,发现操作日志、安全日志、系统日志中记录的操作时间与Agile Controller-Campus客户端的时间不一致。
可能原因
- 服务器或客户端的时间不正确。
- 服务器或客户端的时区不正确。
处理步骤
- 如果服务器节点当前的时区时间与节点所在地的实际值不符,则需修改服务器的时区时间。详细的修改方法请见Agile Controller-Campus《系统维护与监控(管理面)》中的“修改时区时间”。
- 如果客户端时区时间与实际值不符,请参考如下操作:
- 打开Windows控制面板,单击“时钟、语言和区域”。
- 在“时钟、语言和区域”对话框中,单击“日期和时间”。
- 单击“更改日期和时间”,根据当地时间进行设置。单击“确定”。
- 单击“更改时区”,根据当地时区进行设置。单击“确定”。
备份与恢复故障
备份服务器存储空间不足导致备份文件失败
现象描述
在管理面进行备份操作时,由于待备份节点上的文件无法传输到备份服务器,导致备份操作失败。
可能原因
备份服务器上的备份路径存储空间不足。
处理步骤
- 使用PuTTY工具以备份服务器用户通过SSH方式登录备份服务器。
若使用管理节点作为备份服务器,请先使用sopuser用户通过SFTP方式登录备份服务器,再切换到备份服务器用户。
- 执行以下命令,确认各分区使用情况。
> df -h
如以下回显所示,备份路径“/opt/backup”所在的分区“/opt”仅剩14G空闲空间,需要及时进行清理。
Filesystem Size Used Avail Use% Mounted on ... ... /dev/mapper/vg_root-lv_opt 498G 464G 14G 97% /opt tmpfs 5.9G 0 5.9G 0% /run/user/3001 tmpfs 5.9G 0 5.9G 0% /run/user/0
- 执行以下命令,切换至root用户。
> su - root
Password:root用户的密码
- 删除无用目录。
清理磁盘空间为危险操作,请确保待删除文件/文件夹已不再使用后,谨慎进行清理。
# rm -r 无用目录
- 执行以下命令,退出root用户。
# exit
系统故障导致告警无法自动清除
现象描述
在进行告警清理时,对于可以自动清除的告警系统无法自动清除。
可能原因
系统服务故障。
处理步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
如果管理面的部署模式是集群模式,请先登录OMP_01节点执行相应操作,然后登录OMP_02节点执行相应操作。
- 执行以下命令,切换至ossadm用户。
> su - ossadm
- 执行以下命令,重启管理面服务。
> cd /opt/oss/manager/agent/bin
> . /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd restartapp -app UniEPService -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明管理面服务重启成功。否则请联系华为技术支持工程师。
Stopping process uniepservice-0-0 ... success Starting process uniepservice-0-0 ... success
- 等待30分钟后,查看告警是否自动清除。
- 是,结束。
- 否,请联系华为技术支持工程师。
tmp目录的空间满导致管理面 Web页面显示空白
现象描述
登录管理面的Web页面后,页面显示空白。
可能原因
管理面页面的部分请求,会将一些缓存文件写入缓存目录,当缓存目录磁盘被占满时,缓存目录无法写入,造成这些请求资源文件无法返回管理面,页面显示空白。
处理步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点。
- 执行以下命令,查看节点上磁盘空间情况。
> df -h
系统回显如下类似信息:
Filesystem Size Used Avail Use% Mounted on /dev/sda3 17G 5.0G 11G 32% / ... /dev/sda6 5.0G 208M 4.8G 5% /tmp /dev/mapper/oss_vg-opt_vol 290G 290G 0G 100% /opt tmpfs 3.2G 0 3.2G 0% /run/user/3001 tmpfs 3.2G 0 3.2G 0% /run/user/0
- 在“Mounted on”列中查看“/opt”目录所对应的“Use%”是否达到100%。
- 若达到100%,是由于“/opt/oss/tmp”目录空间已满,请清理该目录的空间或者联系华为技术支持工程师。
- 若未达到100%,是由于其他原因造成,请联系华为技术支持工程师。
- 清理目录空间后重新登录管理面,具体操作请参见登录管理面。
- 若页面显示正常,操作结束。
- 若页面仍显示空白,请联系华为技术支持工程师。
MCZKService数据文件损坏导致mczkapp进程异常
现象描述
- mczkapp进程的CPU使用率长期处于100%以上。
- MCZKService数据文件损坏导致该服务无法启动。
- MCZKService是基于zookeeper三方件的服务,存有部分业务状态数据,数据会持久化到磁盘。服务重启的时候会优先加载磁盘数据,如果磁盘数据损坏无法读取,会导致服务启动失败。
- MCZKService集群部署场景:所有集群节点的MCZKService数据文件同时发生损坏,会导致数据丢失。若MCZKService数据文件损坏的节点个数少于集群节点总数的一半,不影响MCZKService正常提供服务。MCZKService数据文件损坏的节点修复后能自动提供服务。
可能原因
节点异常下电或者磁盘空间已满导致MCZKService数据文件损坏,从而mczkapp进程异常。
处理步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录mczkapp进程异常的节点。
mczkapp进程的名称例如“mczkapp-0-0”。
- 执行以下命令,切换至ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,停止mczkapp进程。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd stopapp -tenant manager -app MCZKService
系统回显如下类似信息,表示mczkapp进程停止成功,否则请联系华为技术支持工程师。
Stopping process mczkapp-0-0 ... success
- 执行以下命令,删除mczkapp进程的配置文件。
> rm -rf /opt/oss/share/manager/MCZKService/data_v2/*
> rm -rf /opt/oss/share/manager/MCZKService/datalog_v2/*
- 执行以下命令,启动mczkapp进程。
> ipmc_adm -cmd startapp -tenant manager -app MCZKService
系统回显如下类似信息,表示mczkapp进程启动成功,否则请联系华为技术支持工程师。
Starting process mczkapp-0-0 ... success
- 查看mczkapp进程的“状态”和“CPU使用率”。
- 登录管理面,具体操作请参见登录管理面。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择“NCE-OMP”。
- 选择“服务”页签,单击“UniEPMgr”进入服务详情页面。
- 在“服务进程”区域,查看以“mczkapp”开头的服务进程的“状态”和“CPU使用率”。
- 如果“状态”为“正在运行”,且“CPU使用率”恢复正常,则故障恢复,处理结束。
- 如果“状态”为“启动中”或“停止中”,单服务的启停时长一般不超过1分钟,如果服务长时间处于该状态,请联系华为技术支持工程师处理。
- 如果“状态”为“故障”、“未知”或“未运行”,说明mczkapp进程运行异常,请联系华为技术支持工程师处理。
ZookeeperService数据文件损坏导致zookeeperapp进程异常
现象描述
ZookeeperService进程的CPU使用率长期处于100%以上或ZookeeperService服务无法启动,查看ZookeeperService数据文件损坏。
可能原因
节点异常下电或磁盘空间已满导致ZookeeperService数据文件损坏,从而导致zookeeperapp进程异常。
处理步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录zookeeperapp进程异常的节点。获取进程所在节点的IP地址请参见如何查找服务所在节点的IP地址。
- 执行以下命令,切换到ossadm用户。
su - ossadm
Password:ossadm用户的密码
- 执行以下命令导入环境变量。
source /opt/oss/manager/bin/engr_profile.sh
- 执行以下命令,查看ZookeeperService服务状态。
ipmc_adm -cmd statusapp -app ZookeeperService -tenant NCECAMPUS
- 输出结果为如下类似信息,服务状态是STOPPED,表示服务异常,则执行6。
Process Name Process Type App Name Tenant Name Process Mode IP PID Status zookeeperapp-1-0 zookeeperapp ZookeeperService NCECAMPUS multi x.x.x.x 66794 STOPPED
- 输出结果为如下类似信息,服务状态是RUNNING,表示服务当前正在运行,则执行5。
Process Name Process Type App Name Tenant Name Process Mode IP PID Status zookeeperapp-1-0 zookeeperapp ZookeeperService NCECAMPUS multi x.x.x.x 66794 RUNNING
- 输出结果为如下类似信息,服务状态是STOPPED,表示服务异常,则执行6。
- 执行以下命令,停止zookeeperapp进程。
ipmc_adm -cmd stopapp -tenant NCECAMPUS -app ZookeeperService
系统回显如下类似信息,表示zookeeperapp进程停止成功,否则请联系华为技术支持工程师。
Stopping process zookeeperapp-1-0 ... success
- 执行以下命令查看ZookeeperService服务日志。
less /opt/oss/log/NCECAMPUS/ZookeeperService/oss.zookeeper.log
输出结果为如下类似信息,表示ZookeeperService服务文件损坏:
java.io.IOException: Transaction log: /opt/oss/share/NCECAMPUS/ZookeeperService/datalog_v2/version-2/log.c034b2 has invalid magic number -42140
- 执行以下命令,切换至ossuser用户。
su - ossuser
Password:ossuser用户的密码
- 执行以下命令,删除服务中损坏的文件。
rm -rf /opt/oss/share/NCECAMPUS/ZookeeperService/data_v2/*
rm -rf /opt/oss/share/NCECAMPUS/ZookeeperService/datalog_v2/*
如果文件损坏,属主权限变为“????”,会导致删除失败,可以执行mv命令移动无法删除的文件目录到其他位置。
以datalog_v2下version-2目录为例,执行如下命令。
mv /opt/oss/share/NCECAMPUS/ZookeeperService/datalog_v2/version-2 /tmp/version-2
- 执行以下命令,切换至ossadm用户。
exit
- 执行以下命令导入环境变量。
source /opt/oss/manager/bin/engr_profile.sh
- 执行以下命令,启动zookeeperapp进程。
ipmc_adm -cmd startapp -tenant NCECAMPUS -app ZookeeperService
系统回显如下类似信息,表示zookeeperapp进程启动成功,否则请联系华为技术支持工程师。
Starting process zookeeperapp-1-0 ... success