系统维护与监控(管理面)
- 关于iMaster NCE-Campus
- 启动iMaster NCE-Campus
- 停止iMaster NCE-Campus
- 系统监控
- 备份与恢复
- 配置产品
- 配置网络
- 配置告警
- 软件管理
- 选举服务管理
- 任务管理
- 运维管理
- 安全管理
- 日志管理
- 替换证书
- 密钥管理
- 磁盘管理
- FAQ
- 硬件设备
- FusionCompute虚拟化环境
- 操作系统
- iMaster NCE-Campus系统
- 查看管理面版本号
- 查看证书有效期(管理面)
- 查询节点MAC地址
- 如何查询节点的主备状况
- 如何查找服务所在节点的IP地址
- 如何查找数据库实例所在节点的IP地址
- 如何查找节点对应的IP地址
- 如何查找节点对应的浮动IP地址
- 如何查找管理节点IP地址对应的节点名称
- iMaster NCE-Campus安装完成后,如何修改IP地址和域名?
- 查看SFTP指纹认证信息
- 如何进行手工SFTP指纹认证
- 如何创建备份服务器的备份路径
- 如何判断节点的部署模式
- 如何判断管理节点和产品节点是否使用同一个数据库软件
- 如何手动删除或配置22端口侦听IP
- 命令行方式更新管理面的ER证书
- 命令行方式更新业务面的ER证书
- CA证书
- 回退更新失败的ER\IR证书
- 命令行方式更新管理面的用户管理证书
- 如何开启或关闭故障分析的数据入库功能
- 修改数据库实例密码(产品节点)
- 如何配置GaussDB 100 V1 SSL加密算法
- OMMHA常用操作
- 修改虚拟机的启动方式并重启虚拟机
- 修改物理机的启动方式并重启物理机
- 如何登录远程控制台
- 如何查看产品部署状态
- 加密签名证书的私钥(管理面)
- 如何安装操作系统未默认安装的RPM组件包
- 管理操作系统弱密码字典中的密码
- 强制停止备份产品数据任务
- 浮动IP地址增加或删除后修改配置参数
- 如何开启或关闭SSH的RekeyLimit功能
- 如何查找OMP节点和业务节点IP地址
- 如何处理异机恢复场景设备数据接收问题
- 常见操作
关于iMaster NCE-Campus
iMaster NCE-Campus安装成功后,管理员可通过管理面(iMaster NCE-Campus-OMP)进行系统维护,并通过业务面实现各业务功能。
基本概念
界面类型 |
面向对象 |
功能介绍 |
登录方式 |
---|---|---|---|
管理面 |
|
集中管理iMaster NCE-Campus软件资源、应用和数据库,实现安装部署、系统监控、系统维护(用户与密码管理、数据备份与恢复、证书与密钥管理等)、系统排障(系统健康检查、异地容灾等)等功能。 |
https://管理面IP地址:18102 |
业务面 |
|
针对网络规划/开局、业务设计/发放、网络监控/分析/调整/维护/排障等运维场景,提供系统设置(License管理、对接南向系统等)、安全管理(用户和权限管理、安全策略、日志管理)、告警管理等特性和功能。 |
https://业务面IP地址:18008 |
对iMaster NCE-Campus进行管理维护过程中,常用概念解释如下表3-2所示。
名词 |
解释 |
---|---|
管理节点 |
部署管理面服务的节点。 |
产品节点/业务节点 |
指产品服务或者数据库部署的节点的集合。 |
数据库节点 |
部署了数据库的节点。 |
产品 |
指部署在服务器上除管理面服务的服务集合。 |
服务 |
指一组相关功能的特性集合。一个服务可能有一个或者多个实例。 |
实例 |
指系统中处于运行状态的程序,以及系统为这些程序分配的一些资源的集合。一个实例可能有一个或者多个进程。 |
进程 |
指具有一定独立功能的程序在某个数据集合上的一次执行活动,是系统进行资源分配和调度的基本单位。 |
单机 |
服务部署在一个节点上,管理面或者产品所有的功能都是通过该节点来提供。 |
集群 |
服务部署在多个节点上,管理面或者产品所有的功能由这些节点协同工作来提供。 |
iMaster NCE-Campus支持分布式、集中式和小型化三种场景,分布式、集中式和小型化主要差异请参见表3-3,本文档内容涵盖分布式、集中式和小型化的描述,请根据实际场景选用对应内容。
- 分布式:iMaster NCE-Campus系统中包含管理单元、控制单元、分析单元中的任意两个及以上组件。
- 集中式:iMaster NCE-Campus系统中仅包含管理单元组件。
- 小型化:iMaster NCE-Campus系统中包含管理单元、控制单元、分析单元中的任意两个及以上组件,且为减少资源占用,各业务节点未进行冗余部署,即无本地节点保护。
类别 |
分布式场景 |
集中式场景 |
小型化场景 |
差异说明 |
---|---|---|---|---|
管理节点 |
OMP_01 OMP_02 OMP_03 |
OMP |
OMP |
分布式场景管理节点有三个:OMP_01、OMP_02、OMP_03,OMP_03和DB_02部署在同一个节点IP上。 |
业务节点 |
如Common_Service、DB等 |
NMS |
如Common_Service、DB等 |
集中式业务节点数据库用户都处在NMS节点上。 |
备份恢复差异 |
iMaster NCE-Campus默认以OMP_02节点作为备份服务器。 |
iMaster NCE-Campus默认以OMP节点作为备份服务器。 |
iMaster NCE-Campus默认以OMP节点作为备份服务器。 |
集中式配置备份参数时,备份服务器的IP地址为OMP节点IP地址。其他信息(用户名、密码和路径)和分布式的相同。 |
运维管理差异 |
支持运维看板、统一监控、故障告警、故障诊断、健康检查和数据采集功能。 说明:
NCE Lite管控场景只支持故障告警、健康检查、数据采集和历史问题匹配功能。 |
TaiShan:支持运维看板、统一监控、故障告警、故障诊断、健康检查和数据采集功能。 2288H V5:支持故障告警、健康检查、数据采集和历史问题匹配功能。 |
支持运维看板、统一监控、故障告警、故障诊断、健康检查和数据采集功能。 |
2288H V5只支持故障告警、健康检查、数据采集和历史问题匹配功能。 |
操作规范
- 若无特殊说明,本文档中操作对异地容灾系统要求一致 。
- 由于各节点上规划了不同的网络平面,若需要使用SSH远程登录虚拟节点操作系统,请参考如何登录节点操作系统进行操作。
启动iMaster NCE-Campus
若iMaster NCE-Campus被人为停止或异常终止,待影响因素消除后,请重新启动iMaster NCE-Campus。
上电设备(2288H V5)
将设备上电,为安装或使用iMaster NCE-Campus做准备。
背景信息
设备上电顺序为:首先打开设备对应的机柜配电盒电源开关,然后按照各设备在机柜中的安装位置从下往上依次上电。
上电设备(TaiShan)
将设备上电,为安装或使用iMaster NCE-Campus做准备。
背景信息
设备上电顺序为:首先打开设备对应的机柜配电盒电源开关,然后按照各设备在机柜中的安装位置从下往上依次上电。
启动虚拟机
实际部署的场景不同启动虚拟机的方法也不同,请根据实际场景执行对应的操作步骤。启动虚拟机时,虚拟机操作系统随之启动,虚拟机节点上的服务和数据库也将一并启动。
启动虚拟机(FusionCompute)
介绍在FusionCompute场景中如何启动虚拟机。
前提条件
已登录FusionCompute。详见如何登录FusionCompute。
操作步骤
- 单击“资源池 > ManagementCluster > CNA_XX”进入虚拟机和模板界面。
- 右键单击待启动的虚拟机(例如:NMS-Server_192.168.33.180),选择“电源 > 打开电源”。
如果VRM无法启动,请参考《FusionSphere 虚拟化套件 产品文档》的“VRM虚拟机关机后无法启动”章节进行处理。
获取方式:- 运营商用户:登录https://support.huawei.com/carrier/docTypeNewOffering?col=product&path=PBI1-21430725/PBI1-23710112/PBI1-21431666/PBI1-21462737/PBI1-8576912,搜索版本配套的《FusionSphere 虚拟化套件 产品文档》。
- 企业用户:登录https://support.huawei.com/enterprise/zh/cloud-computing/fusioncompute-pid-8576912,搜索版本配套的《FusionSphere 虚拟化套件 产品文档》。
启动管理面
仅可通过命令行操作方式启动管理面数据库、服务及进程。
- 如果只需要启动管理面数据库,请参见启动管理面数据库。
- 如果只需要启动管理面服务,请参见启动管理面服务。
- 如果需要同时启动管里面服务和数据库,请参见启动管理面服务和数据库。
启动管理面数据库
介绍如何通过命令方式启动管理面数据库。
前提条件
- 已获取管理节点的sopuser和ossadm用户密码。
- 已获取管理节点的管理IP地址。
操作步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点,具体请参见使用PuTTY登录服务器。
如果管理面的部署模式是集群场景,请在OMP_01节点执行启动命令的3分钟内,打开新的PuTTY工具窗口启动OMP_02节点数据库。待两个节点启动完成后,再查看节点的启动结果,如果启动失败,请联系华为技术支持工程师处理。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,启动管理面数据库。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd startdc -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明管理面数据库启动成功,否则请联系华为技术支持工程师。
============================ Starting data container processes... Starting redis process woadapterrdb-1-14 ... success ... Starting redis process serviceinspectionrdb-1-3 ... success Starting redis process privilegerdb-1-28 ... success ============================ Starting data container processes is complete.
启动管理面服务
介绍如何通过命令方式启动管理面服务。
前提条件
- 管理面数据库实例处于“正在运行”状态,具体操作请参见启动管理面数据库。
- 已获取管理节点的sopuser和ossadm用户密码。
- 已获取管理节点的管理IP地址。
- 如果管理面的部署模式是集群模式,即存在多个管理节点,已获取OMMHA主备服务所在管理节点的IP地址,具体请参见如何查询节点的主备状况。
操作步骤
管理面的部署模式是集群模式
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMMHA主服务所在管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,启动OMMHA服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd startapp -tenant manager -app OMMHAService
系统提示如下类似回显信息,所有进程都提示“success”,则说明OMMHA服务启动成功,否则请联系华为技术支持工程师。
Starting process ommha-0-0 ... success
- 执行以下命令,启动该节点除OMMHA服务外的其他服务。
> ipmc_adm -cmd startapp -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明该节点服务启动成功,否则请联系华为技术支持工程师。
... Starting process user-0-0 ... success Starting process cron-0-0 ... success ...
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMMHA备服务所在管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,启动OMMHA服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd startapp -tenant manager -app OMMHAService
系统提示如下类似回显信息,所有进程都提示“success”,则说明OMMHA服务启动成功,否则请联系华为技术支持工程师。
Starting process ommha-0-0 ... success
- 执行以下命令,启动该节点除OMMHA服务外的其他服务。
> ipmc_adm -cmd startapp -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明该节点服务启动成功,否则请联系华为技术支持工程师。
... Starting process user-0-0 ... success Starting process cron-0-0 ... success ...
- 使用PuTTY工具以sopuser用户通过SSH方式登录其他管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,启动所有服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd startapp -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明节点所有服务启动成功,否则请联系华为技术支持工程师。
... Starting process user-0-0 ... success Starting process cron-0-0 ... success ...
启动管理面服务和数据库
介绍如何通过命令方式启动管理面服务和数据库。
前提条件
- 已获取管理节点的sopuser和ossadm用户密码。
- 已获取管理节点的管理IP地址。
- 如果管理面的部署模式是集群模式,即存在多个管理节点,已获取OMMHA主备服务所在管理节点的IP地址,具体请参见如何查询节点的主备状况。
操作步骤
管理面的部署模式是集群模式
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMMHA主服务所在管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,启动OMMHA服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd startapp -tenant manager -app OMMHAService
系统提示如下类似回显信息,所有进程都提示“success”,则说明OMMHA服务启动成功,否则请联系华为技术支持工程师。
Starting process ommha-0-0 ... success
- 执行以下命令,启动管理面服务和数据库。
> ipmc_adm -cmd startmgr
系统提示如下类似回显信息,则说明该节点管理面所有服务和数据库启动成功,否则请联系华为技术支持工程师。
... ============================ Starting management dc is complete ... ============================ Starting management processes is complete.
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMMHA备服务所在管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,启动OMMHA服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd startapp -tenant manager -app OMMHAService
系统提示如下类似回显信息,所有进程都提示“success”,则说明OMMHA服务启动成功,否则请联系华为技术支持工程师。
Starting process ommha-0-0 ... success
- 执行以下命令,启动管理面服务和数据库。
> ipmc_adm -cmd startmgr
系统提示如下类似回显信息,则说明该节点管理面所有服务和数据库启动成功,否则请联系华为技术支持工程师。
... ============================ Starting management dc is complete ... ============================ Starting management processes is complete.
- 使用PuTTY工具以sopuser用户通过SSH方式登录其他管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,启动管理面服务和数据库。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd startmgr
系统提示如下类似回显信息,则说明该节点管理面所有服务和数据库启动成功,否则请联系华为技术支持工程师。
... ============================ Starting management dc is complete ... ============================ Starting management processes is complete.
登录管理面
通过浏览器可登录管理面。
前提条件
- 当前PC和管理面服务器之间的网络连接正常,且管理面服务运行正常。
- 已获取当前登录用户的密码。
背景信息
- 管理面自身只提供一个admin用户。此用户拥有管理面所有管理对象的所有操作权限。第一次成功登录管理面后,请按照界面提示信息修改密码以确保管理面的访问安全性。
- PC操作系统及浏览器版本需要满足以下要求。
表3-6 客户端软硬件配置要求
配置项
基本配置要求
内存
4GB或以上
硬盘
空闲硬盘8GB或以上
操作系统
- Windows 10(32/64位)
浏览器
- 推荐:
- Google Chrome 70及以上版本(32位或64位版本)
- Firefox ESR 61.0.1及以上版本(32位或64位版本)
- 兼容:
- Google Chrome 57及以上版本(32位或64位版本)
- Firefox ESR 52及以上版本(32位或64位版本)
分辨率
1366 x 768或更高,推荐1920 x 1080。
操作步骤
- 启动浏览器,在地址栏中输入https://管理面的客户端登录IP地址:18102,按“Enter”。
iMaster NCE-Campus启用之后,只能使用“https://管理面部署IP:18102端口”登录管理面。
如果iMaster NCE-Campus停用,则只能使用“https://ER浮动IP:31945端口”登录管理面。或者使用“sopuser”用户登录操作系统,切换到“ossadm”用户,执行以下命令启动LVS服务(启用iMaster NCE-Campus),然后再使用“https://管理面部署IP:18102端口”登录管理面。
. /opt/oss/manager/agent/bin/engr_profile.sh ipmc_adm -cmd restartapp -app LVSService
- 输入用户名、密码,单击“登录”。
- 用户进行本地登录时,请输入用户名admin及该用户对应的密码。为保证系统安全,请及时修改密码,定期更新并妥善保管密码。
- 用户首次登录管理面,界面会提示修改admin用户的初始密码,按照界面指引完成相关操作。admin用户的密码一旦丢失只能通过重装管理面恢复默认密码。
- 为了安全起见,建议不要设置浏览器记住密码。
- admin用户在10分钟内连续输入错误密码5次,登录IP地址会被锁定10分钟。
启动FusionInsight
前提条件
上电服务器。
操作步骤
- 使用PuTTY工具,以omm用户登录任意一个管理节点。
- 执行如下命令,启动OMS。
sh ${BIGDATA_HOME}/om-server/om/sbin/start-oms.sh
显示以下信息表示成功启动OMS。
Warning: HA monitor has been running already. start HA successfully.
- 使用PuTTY工具,以omm用户登录另一个管理节点。
- 执行如下命令,启动OMS。
sh ${BIGDATA_HOME}/om-server/om/sbin/start-oms.sh
显示以下信息表示成功启动OMS。
Warning: HA monitor has been running already. start HA successfully.
- 在浏览器地址栏中,输入并访问FusionInsight Manager的网络地址,等待OMS自动启动完成则能够正常打开页面。
- 登录FusionInsight Manager,单击主页上各集群名称后的
,单击“启动”,启动各个集群。
在弹出的提示框中单击“确定”,开始启动集群。界面提示“操作成功”,单击“完成”,集群成功启动。
启动业务面
在管理面上可通过界面操作方式启动业务面。
- 如果只需要启动业务面数据库,请参见启动业务面数据库。
- 如果只需要启动业务面服务,请参见启动业务面服务。
- 如果需要同时启动业务面服务和数据库,请参见启动产品服务和数据库。
启动业务面数据库
iMaster NCE-Campus安装成功后,业务面数据库默认处于运行状态。若手动停止了数据库或数据库异常,待影响因素排除后需要重新启动数据库,确保iMaster NCE-Campus运行数据的读写正常。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作步骤
- 在管理面主菜单中选择 。
- 在“系统监控”页面左上角,单击
切换至对应的产品。参考表3-7完成相关操作。
- 在当前页面,查看数据库的状态并判断操作是否执行成功。
- 对于异地容灾场景,设置产品为解冻状态,具体操作请参见冻结产品服务自动启动。
启动业务面服务
iMaster NCE-Campus安装成功后,业务面服务默认处于运行状态。若手动停止了服务或服务异常,待影响因素排除后需要重新启动服务,确保iMaster NCE-Campus的运行正常。
操作步骤
- 在管理面主菜单中选择 。
- 在“系统监控”页面左上角,单击
切换至对应的产品。参考表3-8完成相关操作。
- 在当前页面,查看服务的状态并判断操作是否执行成功。
- 对于异地容灾场景,设置产品为解冻状态,具体操作请参见冻结产品服务自动启动。
启动产品服务和数据库
介绍如何启动产品服务和数据库。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作步骤
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品,参见表3-9完成相关操作。
- 任务执行成功后,在“节点”页签查看节点的“服务状态”和“数据库状态”为“运行正常”。
- 对于异地容灾场景,设置产品为解冻状态,具体操作请参见冻结产品服务自动启动。
登录业务面
介绍如何通过浏览器登录业务面。
前提条件
- 当前PC和业务面的客户端登录IP地址之间的网络连接正常,且业务面服务运行正常。
- 已获取当前登录用户的密码。
背景信息
- PC操作系统及浏览器版本需要满足以下要求。
表3-10 配置要求
软件类型
要求
操作系统
支持Windows Server 2008、Windows 10及以上版本
浏览器
Google Chrome 57及以上版本
分辨率
推荐1366 x 768或更高,最优分辨率为1920 x 1080
- 业务面提供了缺省用户“admin”,作为系统管理员,可管理所有的资源并具有所有的操作权限。为保障业务面的安全,请及时修改密码,定期更新并妥善保管密码。admin用户在10分钟内连续输入错误密码5次,登录IP地址会被锁定10分钟。
- 若10分钟内连续有3个帐号在某IP地址登录时被锁定,则此IP地址被锁定30分钟。
- 某IP地址的登录情况达到“帐号策略”中针对IP地址锁定所设置的约束时,该登录IP地址被锁定。
- 本地用户登录情况当达到“帐号策略”中针对帐号锁定所设置的约束时,缺省情况下帐号会被锁定30分钟。
- 用户可在帐号自动解锁后再次登录系统。本地用户还可以通过联系安全管理员解锁帐号后再登录。
操作步骤
在浏览器地址栏中输入“https://业务面的客户端登录IP地址:18008”,按“Enter”。
- 在登录页面,输入“用户名”和“密码”。
- 登录后如果需要修改密码,请妥善保存修改后的密码,admin用户的密码一旦丢失只能通过重装业务面恢复初始密码。
- 为了安全起见,建议不要设置浏览器记住密码。
- 单击“登录”。
停止iMaster NCE-Campus
停止iMaster NCE-Campus为危险操作,请确保当前业务允许停止后,严格按照本手册中流程按顺序进行操作。
- 异地容灾场景,请先关闭自动倒换功能,然后再停止NCE。待容灾系统都启动正常且没有容灾相关告警后,再启动自动倒换功能。
在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”,单击右上角“修改”。
- 选择“容灾拓展配置”,关闭“自动倒换”功能。
- 异地容灾场景,请先停止备站点,待备站点完全停止后,再停止主站点。
停止业务面
在管理面上可通过界面操作方式停止业务面。
停止业务面服务
iMaster NCE-Campus安装成功后,业务面服务及进程均默认处于运行状态。请谨慎执行手动停止服务或进程操作,以免影响iMaster NCE-Campus系统的正常运行。
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 对于异地容灾场景,请确保该产品处于冻结状态,具体操作请参见冻结产品服务自动启动。
操作步骤
- 在管理面主菜单中选择 。
- 在“系统监控”页面左上角,单击
切换至对应的产品。参考表3-11完成相关操作。
- 在当前页面,查看服务的状态并判断操作是否执行成功。
停止业务面数据库
iMaster NCE-Campus安装成功后,业务面数据库默认处于运行状态。请谨慎执行手动停止数据库操作,以免影响iMaster NCE-Campus系统的正常运行。
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 为保证业务的正常运行,停止数据库之前先停止对应产品或节点的服务,具体操作请参见停止业务面服务。
- 对于异地容灾场景,请确保该产品处于冻结状态,具体操作请参见冻结产品服务自动启动。
操作步骤
- 在管理面主菜单中选择 。
- 在“系统监控”页面左上角,单击
切换至对应的产品。参考表3-12完成相关操作。
- 在当前页面,查看数据库的状态并判断操作是否执行成功。
停止产品服务和数据库
当对系统进行维护需要停止产品服务和数据库时执行本操作。
操作步骤
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品,参见表3-13完成相关操作。
- 任务执行成功后,在“节点”页签查看节点的“服务状态”和“数据库状态”为“未运行”。
停止管理面
仅可通过命令行操作方式停止管理面。
停止管理面服务
介绍如何通过命令方式停止管理面服务。
前提条件
- 已获取管理节点的sopuser和ossadm用户密码。
- 已获取管理节点的管理IP地址。
- 如果管理面的部署模式是集群模式,即存在多个管理节点,已获取OMMHA主备服务所在管理节点的IP地址,具体请参见如何查询节点的主备状况。
操作步骤
管理面的部署模式是集群模式
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMMHA备服务所在管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,停止OMMHA服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd stopapp -tenant manager -app OMMHAService
系统提示如下类似回显信息,所有进程都提示“success”,则说明OMMHA服务停止成功,否则请联系华为技术支持工程师。
Stopping process ommha-0-0 ... success
- 执行以下命令,停止该节点除OMMHA服务外的其他服务。
> ipmc_adm -cmd stopapp -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明该节点服务停止成功,否则请联系华为技术支持工程师。
... Stopping process user-0-0 ... success Stopping process cron-0-0 ... success ...
- 使用PuTTY工具以sopuser用户通过SSH方式登录OMMHA主服务所在管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,停止OMMHA服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd stopapp -tenant manager -app OMMHAService
系统提示如下类似回显信息,所有进程都提示“success”,则说明OMMHA服务停止成功,否则请联系华为技术支持工程师。
Stopping process ommha-0-0 ... success
- 执行以下命令,停止该节点除OMMHA服务外的其他服务。
> ipmc_adm -cmd stopapp -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明该节点服务停止成功,否则请联系华为技术支持工程师。
... Stopping process user-0-0 ... success Stopping process cron-0-0 ... success ...
- 使用PuTTY工具以sopuser用户通过SSH方式登录其他管理节点,具体请参见使用PuTTY登录服务器。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,停止所有服务。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd stopapp -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明节点所有服务停止成功,否则请联系华为技术支持工程师。
... Stopping process user-0-0 ... success Stopping process cron-0-0 ... success ...
停止管理面数据库
介绍如何通过命令方式停止管理面数据库。
前提条件
- 管理面服务处于“未运行”状态,具体操作请参见停止管理面服务。
- 已获取管理节点的sopuser和ossadm用户密码。
- 已获取管理节点的管理IP地址。
操作步骤
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点,具体请参见使用PuTTY登录服务器。
如果管理面的部署模式是集群场景,请分别登录OMP_01节点、OMP_02节点执行以下操作。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,停止管理面数据库。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd stopdc -tenant manager
系统提示如下类似回显信息,所有进程都提示“success”,则说明管理面数据库停止成功,否则请联系华为技术支持工程师。
============================ Stopping data container processes... Stopping redis process woadapterrdb-1-14 ... success ... Stopping redis process privilegerdb-1-28 ... success Stopping redis process rnrdb-1-21 ... success ============================ Stopping data container processes is complete.
停止管理面服务和数据库
介绍如何通过命令方式停止管理面服务和数据库。
前提条件
- 已获取管理节点的sopuser和ossadm用户密码。
- 已获取管理节点的管理IP地址。
操作步骤
管理面的部署模式是集群模式
- 使用PuTTY工具以sopuser用户通过SSH方式登录管理节点,具体请参见使用PuTTY登录服务器。
请在所有管理节点上执行以下操作。
- 执行以下命令,切换到ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,停止管理面服务和数据库。
> source /opt/oss/manager/bin/engr_profile.sh
> ipmc_adm -cmd stopnode
如果管理节点和产品节点为同一个节点,使用以上命令还会停止该节点的产品服务,如果无需停止产品服务,请替换为“ipmc_adm -cmd stopmgr”命令。判断管理节点和产品节点是否为同一个节点,具体操作请参见如何判断节点的部署模式。
当所有服务都提示“success”时,则表示该节点所有服务和数据库停止成功,否则请联系华为技术支持工程师。
停止FusionInsight
高危操作
如需要执行以下操作,请联系华为技术支持工程师。
- 重启FusionInsight业务组件,中断控制器业务,造成数据丢失。
- 重启FusionInsight OMS组件,导致在一定时间内无法管理、维护FusionInsight集群。
- 禁止停止FusionInsight业务组件,中断控制器业务,造成数据丢失、特性失效。
- 停止Spark统计任务,中断控制器业务,造成数据丢失。
- 变更FusionInsight集群的NTP及时间、时区的配置,FusionInsight集群可能进入故障状态、丢失业务数据。
操作步骤
- 登录FusionInsight Manager。
- 单击主页上各集群名称后的
,单击“停止”,停止Manager内的各个集群。
- 在弹出的确认框中,输入当前登录的用户密码确认身份,单击“确定”。
- 在弹出的提示框中,单击“确定”。
等待界面提示“操作成功”,单击“完成”,集群停止运行。
- 使用PuTTY,以omm用户登录主管理节点。
- 执行如下命令,停止主OMS。
sh ${BIGDATA_HOME}/om-server/om/sbin/stop-oms.sh
显示以下信息表示成功停止OMS。
stop HA successfully.
管理节点主备倒换大约需要3分钟。
- 使用PuTTY,以omm用户登录备管理节点。
- 执行如下命令,停止备OMS。
sh ${BIGDATA_HOME}/om-server/om/sbin/stop-oms.sh
显示以下信息表示成功停止OMS。
stop HA successfully.
关闭虚拟机
实际部署的场景不同关闭虚拟机的方法也不同,请根据实际场景执行对应的操作步骤。关闭虚拟机时,会同时关闭虚拟机操作系统。
关闭虚拟机(FusionCompute)
介绍在FusionCompute场景中如何关闭虚拟机。
前提条件
已登录FusionCompute。详见如何登录FusionCompute。
操作步骤
- 单击“资源池 > ManagementCluster > CNA_XX”进入虚拟机和模板界面。
- 右键单击待关闭的虚拟机(例如:NMS-Server_192.168.33.180),选择“电源 > 关闭”。
下电设备(2288H V5)
下电硬件设备后,iMaster NCE-Campus将彻底停止运行。
前提条件
停止服务和数据库。具体操作请参考停止iMaster NCE-Campus中各对应章节。
操作须知
- 如果已用shutdown命令关闭操作系统后,服务器会自动下电,不需要手动执行下电操作。
- 设备下电顺序为:按照各设备在机柜中的安装位置从上往下依次下电,然后关闭设备对应的机柜配电盒电源开关。
操作步骤
- 登录iBMC WebUI,详细步骤请参见如何通过iBMC IP地址远程登录服务器。
- 选择“电源与能耗 > 电源控制”。
- 进入“电源控制”界面,单击“正常下电”,出现下电提示时单击“确定”将服务器下电。
强制下电可能会损坏用户的程序或者未保存的数据,请根据操作系统实际情况谨慎选择操作方式。
下电设备(TaiShan/2288X V5)
下电硬件设备后,iMaster NCE-Campus将彻底停止运行。
前提条件
停止服务和数据库。具体操作请参考停止iMaster NCE-Campus中各对应章节。
操作须知
- 如果已用shutdown命令关闭操作系统后,服务器会自动下电,不需要手动执行下电操作。
- 设备下电顺序为:按照各设备在机柜中的安装位置从上往下依次下电,然后关闭设备对应的机柜配电盒电源开关。
背景信息
- 登录iBMC管理界面,详细步骤请参见如何通过iBMC IP地址远程登录服务器。
- 查看iBMC版本信息。
- iBMC版本为3.01.0.0及以上时,在iBMC主界面“设备信息”中,查看“iBMC固件版本”。
- iBMC版本为5.00及以上时,在iBMC主界面“设备信息”中,查看“iBMC版本”。
- iBMC版本为5.00以下时,在iBMC主界面“基本信息”中,查看“iBMC固件版本”。
操作步骤
- 发货设备iBMC版本为3.01.0.0及以上或5.00及以上,请按下列步骤操作。
- 登录iBMC WebUI,详细步骤请参见如何通过iBMC IP地址远程登录服务器。
- 选择 。
- 单击“服务器上下电”,在“服务器上下电”界面,单击“下电”,出现下电提示时单击“确定”将服务器下电。
强制下电可能会损坏用户的程序或者未保存的数据,请根据操作系统实际情况谨慎选择操作方式。
- 发货设备iBMC版本为5.00以下,请按下列步骤操作。
- 登录iBMC WebUI,详细步骤请参见如何通过iBMC IP地址远程登录服务器。
- 选择“电源与能耗 > 电源控制”。
- 进入“电源控制”界面,单击“下电”,出现下电提示时单击“确定”将服务器下电。
强制下电可能会损坏用户的程序或者未保存的数据,请根据操作系统实际情况谨慎选择操作方式。
系统监控
当在管理面上安装产品后,可通过该功能对管理面和业务面的节点、服务、数据库和进程等资源对象进行监控,以便您及时发现并解决异常状况,保障服务器的高效运行和产品的正常使用。
监控产品
集中监控产品各节点、服务和数据库的资源指标,通过对各资源指标进行预测性分析,可及时发现并解决可预知的风险。对于异地容灾场景,建议每天查看主备站点的各资源状态,先查看主站点再查看备站点,以确保系统正常运行。
前提条件
已登录管理面,具体操作请参见登录管理面。
背景信息
管理面每30秒刷新一次界面上产品各节点、服务和数据库状态。
操作步骤
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品或NCE-OMP。
- 在页面右上方查看“节点”、“服务”、“关系数据库”和“Redis数据库”中是否存在异常资源。
红色数字为异常资源的个数。
图3-7 监控产品界面- 否,表示产品状态正常,即异常资源个数都为“0”。
- 是,表示产品中该资源项存在异常,即异常资源个数为非“0”。
可单击异常资源个数进入该资源项页签中查看详细状态。
监控节点
对管理面和业务面中所有节点的状态进行监控,及时发现并解决异常状况,保障服务器的高效运行。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作须知
对于主备类型的服务,只在主节点运行,备节点不运行。
背景信息
管理面定期对系统内的资源进行监控。监控周期如表3-14所示,并每30秒刷新一次界面上的监控对象状态。
操作步骤
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品或NCE-OMP。
- 选择“节点”页签,查看节点的CPU、虚拟内存、物理内存和磁盘分区的使用状况,参见表3-15检查节点资源状态。或者在“节点”页签单击节点名称,在节点详情页面查看节点的磁盘分区使用状况和节点各进程的资源状态。图3-8 监控节点界面表3-15 节点资源状态表
对象
状态
含义
对策
连接状态
正常
该节点与管理面连接正常。
不涉及。
断连
该节点与管理面连接异常。
- 单击异常节点,在相关详情页面查看节点下各磁盘的空间使用率和进程状态。
- 节点状态异常时会上报告警,请根据具体的告警信息处理该异常。
数据库状态
--
该节点没有数据库。
不涉及。
部分运行
该节点存在未运行的数据库实例。
数据库状态异常时会上报告警,请根据具体的告警信息处理该异常。
未运行
该节点的所有数据库实例停止运行。
部分维护操作需要数据库处于未运行状态,根据实际情况判断是否为异常状况。
运行正常
该节点的数据库实例运行正常。
不涉及。
未知
系统无法检测到该节点的数据库实例状态。
请收集相关信息,联系华为技术支持工程师处理。
正在启动
该节点的所有数据库实例正在启动。
如果服务长时间处于该状态,联系华为技术支持工程师处理。
正在停止
该节点的所有数据库实例正在停止。
服务状态
未安装
节点服务未安装。
请收集相关信息,联系华为技术支持工程师处理。
--
该节点没有服务。
不涉及。
部分运行
该节点存在未运行的进程。
在“节点”页签单击对应的名称,在节点详情页面查看未运行的进程,并根据实际情况判断是否为异常状况。
未运行
该节点的所有服务停止运行。
部分维护操作需要服务处于未运行状态,根据实际情况判断是否为异常状况。
运行正常
该节点的所有服务正在运行。
不涉及。
未知
系统无法检测到该节点的服务状态。
服务状态异常时会上报告警,请根据具体的告警信息处理该异常。
故障
该节点有服务处于故障状态。
正在启动
该节点的所有服务处于正在启动状态。
单服务的启停时长一般不超过1分钟,如果服务长时间处于该状态,联系华为技术支持工程师处理。
正在停止
该节点的所有服务处于正在停止状态。
监控服务
对管理面和业务面中所有服务的状态进行监控,及时发现并解决异常状况,保障服务的正常运行。
前提条件
已登录管理面,具体操作请参见登录管理面。
背景信息
管理面每30秒对系统内的服务进行监控,并每30秒刷新一次界面上的服务状态。
操作步骤
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品或NCE-OMP。
- 选择“服务”页签,参见表3-16检查服务状态。或者单击服务实例名称,在相关详情页面检查服务进程等资源的状态。图3-9 监控服务界面表3-16 服务状态表
状态
含义
对策
部分运行
该服务中存在未运行的进程。
单击对应的服务实例名称,在相关详情页面查看未运行的进程,并根据实际情况判断是否为异常状况。
未运行
该服务的所有进程停止运行。
部分维护操作需要服务处于未运行状态,所以需要根据实际情况判断是否为异常状况。
正在运行
该服务的所有进程正在运行。
不涉及。
未知
系统无法检测到该服务中进程的状态。
服务状态异常时会上报告警,请根据具体的告警信息处理该异常。
故障
该服务里存在进程处于故障状态。
服务状态异常时会上报告警,请根据具体的告警信息处理该异常。
启动中
该服务的所有进程处于正在启动状态。
单服务的启停时长一般不超过1分钟,如果服务长时间处于该状态,联系华为技术支持工程师处理。
停止中
该服务的所有进程处于正在停止状态。
监控进程
对管理面和业务面中所有进程的状态进行监控,及时发现并解决异常状况,保障进程的正常运行。
前提条件
已登录管理面,具体操作请参见登录管理面。
背景信息
管理面每30秒对系统内的进程进行监控,并每30秒刷新一次界面上的进程状态。
操作步骤
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品或NCE-OMP。
- 选择“进程”页签,请参见表3-17检查进程的资源状态。图3-10 监控进程表3-17 进程状态表
状态
含义
对策
未运行
该进程停止运行。
部分维护操作需要进程处于未运行状态,所以需要根据实际情况判断是否为异常状况。
说明:对于主备类型的进程,只在主节点运行,备节点不运行。如果未运行进程所在节点的“服务状态”是“运行正常”,表示该进程正常。
正在运行
该进程正在运行。
不涉及。
未知
系统无法检测到该进程的状态。
请收集相关信息,联系华为技术支持工程师处理。
故障
该进程处于故障状态。
进程状态异常时会上报告警,请根据具体的告警信息处理该异常。
启动中
该进程处于正在启动状态。
如果进程长时间处于该状态,联系华为技术支持工程师处理。
停止中
该进程处于正在停止状态。
监控数据库
对管理面和业务面中的关系数据库和Redis数据库的状态进行监控,及时发现并解决异常状况,保障数据库的正常运行。
前提条件
已登录管理面,具体操作请参见登录管理面。
背景信息
- 管理面每60秒对系统内的数据库进行监控,并每30秒刷新一次界面上的数据库状态。
- 关系数据库:指创建在关系模型基础上的数据库,用于存放持久性数据,例如GaussDB 100数据库等。管理面对关系数据库空间使用率进行监控,以便及时发现数据库空间不足问题并尽早处理。
- Redis数据库:指高性能的Key-value数据库,用于存放与状态相关的缓存数据。管理面对Redis数据库内存使用率进行监控,以便及时发现Redis数据库内存不足问题并尽早处理。
操作步骤
配置进程启动类型
当某些功能无需使用时,可将对应功能的产品进程启动方式设置为禁用,从而节省系统资源。若被禁用的进程需使用时,可手工或者自动方式启动进程。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作须知
产品的所有服务进程都会在“进程”页签中显示,禁用某个进程可能会导致与其相关的功能出现异常,请根据实际情况选择待禁用的进程。
对于异地容灾场景,只需在主站点上配置进程启动类型,配置将自动同步至备站点。
操作步骤
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 选择“进程”页签,勾选进程名称,根据实际情况参见表3-20选择对应操作,并按照界面指引完成相关操作。
进程的启动类型修改为“手动”或者“自动”时,进程状态不会发生改变,修改为“禁用”时,进程将停止运行。
- (可选)若需修改进程的运行状态,选择待启动或者停止的进程,在进程列表右上方,单击“启动”或者“停止”,按照界面指引完成相关操作。
修改监控阈值
管理面支持在资源异常时上报告警。系统已提供节点、关系数据库、Redis数据库各资源对象的缺省监控阈值。当资源对象使用情况达到监控阈值时,管理面会上报相应的告警,在业务面上将收到告警通知。如果因默认监控阈值和资源实际使用情况不匹配,导致告警频繁上报等问题出现时,用户可以根据资源实际使用情况修改监控阈值。
前提条件
已登录管理面,具体操作请参见登录管理面。
背景信息
可设置阈值的资源对象及监控阈值的缺省值如表3-21所示。
X是“产生告警阈值”参数的值,Y是“清除告警阈值”参数的值,N是“过载次数”参数的值。Y必须小于X。
监控项 |
资源对象 |
资源上报告警的条件 |
资源告警清除的条件 |
---|---|---|---|
节点 |
CPU |
连续N次(检测周期15秒)采样的CPU使用率都大于等于X%。 缺省值:N=40,X=85 |
只要有一次采样的CPU使用率小于X%。 缺省值:X=85 |
物理内存 |
在一个检测周期(15秒)内,物理内存使用率大于等于X%。 缺省值:X=95 |
物理内存使用率小于等于Y%。 缺省值:Y=90 |
|
虚拟内存 |
在一个检测周期(15秒)内,虚拟内存使用率大于等于X%。 缺省值:X=85 |
虚拟内存使用率小于等于Y%。 缺省值:Y=80 |
|
磁盘分区 |
在一个检测周期(15秒)内,磁盘分区使用率大于等于X%。 缺省值:X=80 |
磁盘分区使用率小于等于Y%。 缺省值:Y=75 |
|
关系数据库 |
数据库表空间的使用率 |
在一个检测周期(180秒)内,数据库表空间使用率大于等于X%。 缺省值:X=95 |
数据库表空间使用率小于等于Y%。 缺省值:Y=85 |
Redis数据库 |
内存 |
在一个检测周期(180秒)内,内存使用率大于等于X%。 缺省值:X=80 |
内存使用率小于等于Y%。 缺省值:Y=70 |
操作须知
对于异地容灾场景,若需修改产品或NCE-OMP的节点和数据库监控阈值,请分别在主站点和备站上修改,并且主备站点的监控阈值需相同。如果不一致,可能会导致告警只在一个站点产生。
操作步骤
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品或NCE-OMP。
- 选择资源对象所在页签。
- 在页面右侧单击
,设置各参数值。
备份与恢复
备份恢复可有效防止人工操作失误或系统故障等原因导致管理面或业务面的数据损坏或丢失,进一步提高系统可靠性。
备份与恢复简介
为了保障管理面和业务面的可靠性,需定期对应用程序和产品数据进行备份操作。当管理面或业务面出现异常情况时,可以通过已备份的数据将管理面或业务面恢复到备份前的状态。
概念介绍
为了便于更清晰的了解备份与恢复功能,备份与恢复中常用的概念如表3-22所示。
名词 |
解释 |
---|---|
应用程序 |
在系统运行过程中不会实时发生变化的数据,包括产品应用程序(如“/opt/oss”目录下的文件)和数据库应用程序(如“/opt/redis”、“/opt/zenith”目录下的文件)。 |
产品数据 |
在系统运行过程中实时发生变化的数据库数据和配置文件(如“/opt/oss/envs”目录下的文件)。 |
定时备份 |
在设定好的时间自动地将数据备份到备份服务器上。分为系统默认定时备份、一次定时备份和周期定时备份。 缺省情况下,系统内置两个默认定时备份任务:
如果默认定时备份任务不能满组需求,可以手工创建一次定时备份任务和周期定时备份任务。 |
手工备份 |
手工将某一时间点的数据备份到备份服务器上。 |
原理介绍
如图3-13所示,用户配置备份服务器后,可以通过备份功能对产品数据、应用程序进行备份。系统使用相关的传输协议如SFTP(Secure File Transfer Protocol),将备份数据传输至备份服务器存储。各类数据的备份相对独立,备份时不存在依赖。
当管理面或业务面数据丢失或破坏后,可以通过恢复功能恢复对应的数据。各类数据的恢复存在依赖关系,恢复前,需要先保证依赖的数据正常,例如,恢复产品数据时,需要保证应用程序正常,依赖关系如图3-14所示。
特性优势
- 灵活易用
功能
说明
多维度备份
按实例、节点、整个产品进行备份。
多维度恢复
按实例、节点、整个产品进行恢复。
定时备份
定期定时备份产品数据和管理面数据,不用每日人工操作。
操作简单
管理面的Web界面一步步引领用户完成操作,复杂任务简单化。
- 安全可靠
功能
说明
备份数据安全传输
使用SFTP安全文件传输协议传输数据,并对备份数据进行签名等安全措施。
实时查看任务情况
在任务列表可以实时查看备份与恢复任务执行的详细情况。
- 高性能
功能
说明
并行备份
不同产品的多个备份任务可以同时执行。
时间点恢复
将数据恢复至某个时间点。
功能介绍
如图3-14所示,该功能可对产品和管理面的应用程序和数据进行备份恢复。各类数据的恢复存在依赖关系,恢复产品数据时,需要保证应用程序的数据正常;单独执行恢复数据库应用程序或产品应用程序时,二者不存在依赖关系。
配置要求
配置项 |
说明 |
---|---|
数据库类型 |
支持GaussDB 100和Redis。 |
磁盘空间 |
请根据实际情况计算各产品和管理面在不同网络规模下对备份服务器空间的要求。 备份总空间 = 产品备份空间之和 + 管理面数据备份空间 单产品备份空间 = 产品数据备份空间 + 产品应用程序备份空间 + 数据库应用程序备份空间 |
数据传输协议 |
支持SFTP(Secure File Transfer Protocol)。 |
备份/恢复场景与策略
备份数据会占用系统资源,若定时备份任务时间段业务繁忙,请根据业务需要在管理面主菜单中选择“备份与恢复 > 配置 > 配置定时备份任务”修改相应定时备份任务的时间
场景 |
操作 |
自动备份项 |
手工备份项 |
---|---|---|---|
多节点故障 |
重新安装系统,并进行数据恢复 |
定期进行产品数据备份,建议配置定期备份任务,每天对产品数据进行备份。 |
- |
升级 |
业务面和管理面进行升级 |
备份/恢复要求和操作请请参见对应版本的升级指导书。 |
- |
扩容 |
集群节点进行扩容 |
备份/恢复要求和操作请参见iMaster NCE-Campus集群扩容操作指导。 |
- |
维护 |
修改数据库用户密码(OMP节点) |
管理面的应用程序和数据 |
无 |
修改数据库用户密码(产品节点) |
|
手工创建备份任务,对如下所有数据进行备份: |
|
在线更新CA证书 |
管理面的应用程序和数据 |
手工创建备份任务,对如下所有数据进行备份: |
|
上传并更新CA证书(非异地容灾系统) |
管理面的应用程序和数据 |
手工创建备份任务,对如下所有数据进行备份: |
|
更新根密钥和工作密钥(非异地容灾系统) |
|
手工创建备份任务,对如下所有数据进行备份: |
备份服务器要求
安装完成后,iMaster NCE-Campus默认以本地节点作为备份服务器,您也可以选择配置第三方备份服务器。
本地默认备份服务器
第三方备份服务器
当使用第三方备份服务器时:
- 建议按照产品数据,再应用程序数据的顺序进行清理,各数据类型至少保留一份最新的备份文件,定期清理磁盘空间。
- 第三方备份服务器与管理面之间不能配置NAT转换。
备份服务器要求
要求项 |
说明 |
---|---|
SFTP相关 |
|
用户名及密码 |
|
连通性 |
要求备份服务器与所有节点之间可以通过SFTP传输模式传输数据。 |
备份服务器IP地址 |
要求使用可进行SFTP文件传输的IP地址,且不能是浮动IP地址。 |
磁盘空间 |
500GB及以上 说明:
建议定期清理磁盘空间,否则可能会导致备份恢复时间过长。 |
带宽 |
推荐:1.5Gbit/s 最低:100Mbit/s |
配置备份参数
配置备份参数是执行备份操作的前提,包括添加用于存储备份文件的备份服务器,以及设置备份文件的存储策略。
前提条件
背景信息
- 备份具体路径请参见表3-26和表3-27,请勿删除该目录下的备份文件,否则将无备份文件恢复。
表3-26 管理节点的备份路径
数据
备份存储路径
本地默认备份服务器的路径示例
管理面应用程序和数据
/备份服务器用户根目录/配置备份参数的路径/management/management/时间戳/节点名称
- 分布式:/opt/backup/ftpboot/backup/management/management/20191119070005090/Management1
- 小型化:/opt/backup/ftpboot/backup/management/management/20191129070010333/Management
表3-27 业务节点的备份路径数据
备份存储路径
本地默认备份服务器的路径示例
数据库应用程序
/备份服务器用户根目录/配置备份参数的路径/产品名称/static/时间戳/节点名称/DB
- 分布式:/opt/backup/ftpboot/backup/NCECAMPUS/static/20191118230000546/DB_01/DB
- 小型化:/opt/backup/ftpboot/backup/NCECAMPUS/static/20191202230001138/Common_Service/DB
产品应用程序
/备份服务器用户根目录/配置备份参数的路径/产品名称/static/时间戳/节点名称/APP
- 分布式:/opt/backup/ftpboot/backup/NCECAMPUS/static/20191118232333974/NMS_01/APP
- 小型化:/opt/backup/ftpboot/backup/NCECAMPUS/static/20191130230005926/Common_Service/APP
产品数据
/备份服务器用户根目录/配置备份参数的路径/产品名称/dynamic
- 分布式:/opt/backup/ftpboot/backup/NCECAMPUS/dynamic/20191120220006667
- 小型化:/opt/backup/ftpboot/backup/NCECAMPUS/dynamic/20191203112551567
- 管理面上最多可添加10个备份服务器,且各备份服务器中均保存相同的备份文件。当某一个备份服务器异常时,其他备份服务器仍可以提供备份文件供恢复。
- 添加备份服务器时,管理面会对备份服务器与待备份节点间进行SFTP指纹校验。若备份服务器与待备份节点间未进行SFTP指纹认证,系统可以为其自动配置。
- 修改或删除已添加的备份服务器后,备份服务器中保存的备份数据不会被删除。
操作须知
- 当备份服务器采用SFTP传输模式,用户验证服务器连通性时,系统将进行SFTP指纹认证,用户通过对SFTP指纹认证信息进行校验,从而提高管理面的数据安全性。SFTP指纹认证信息的获取方法请参见查看SFTP指纹认证信息。
- 若备份服务器的参数有变更时,请在“备份服务器”区域中同步修改并备份管理面的应用程序和数据,否则将导致备份或恢复管理面失败,具体操作请参见手工备份管理面的应用程序和数据。
操作步骤
- 在管理面主菜单中选择“备份与恢复 > 配置 > 配置备份参数”。
- 设置备份参数。
- 设置备份服务器的参数。
- 在“备份服务器”区域,参考表3-28完成相关操作。
表3-28 备份服务器参数说明
参数项
值
传输模式
SFTP。
备份服务器IP地址
- OMP_02节点:节点间内部通信IP地址。
- 第三方备份服务器:可进行SFTP文件传输的IP地址,且不能是浮动IP地址。
端口
- OMP_02节点:备份服务器的端口号,缺省值为22,取值范围为1~65535。
- 第三方备份服务器:第三方备份服务器的端口号,取值范围为1~65535。
用户名
- OMP_02节点:ftpuser用户。
- 第三方备份服务器:具有SFTP文件传输权限的用户。
密码
- OMP_02节点:ftpuser用户密码。
- 第三方备份服务器:具有SFTP文件传输权限的用户对应密码。
备份路径
- OMP_02节点:“/opt/backup/ftpboot/backup”。初始安装调测完时,首次手工备份的数据则存放在“/opt/backup/ftpboot/initdatabackup”。
- 第三方备份服务器:用于保存备份文件的SFTP共享目录。
说明:备份路径必须是SFTP用户登录缺省目录下的相对路径。例如默认以OMP_02节点作为备份服务器时,只需输入“backup”,备份文件则存放在OMP_02节点“/opt/backup/ftpboot/backup”目录中。配置备份参数前请先创建该备份服务器的备份路径,具体操作请参见如何创建备份服务器的备份路径。
- 单击
。
- 若管理面检测到存在未进行SFTP指纹认证的节点,请根据实际场景选择相关操作。
- (推荐)在弹出的“警告”框中单击“确定”,管理面将自动对节点进行SFTP指纹认证。
- 在弹出的“警告”框中单击“取消”,则需分别登录各个未进行SFTP指纹认证的节点手工进行认证,具体操作请参见如何进行手工SFTP指纹认证。
- 在“备份服务器”区域,参考表3-28完成相关操作。
- 当默认的产品数据备份文件存储阈值不能满足实际需求时,可根据以下操作设置产品数据备份文件存储策略。在“产品数据备份文件存储策略”区域,参见表3-29完成相关操作。
- 当默认的管理面备份文件存储阈值不能满足实际需求时,可根据以下操作设置NCE-OMP备份文件存储策略。
- 在“NCE-OMP备份文件存储策略”区域中,设置备份文件存储份数。
- 单击“保存”。
- 设置备份服务器的参数。
后续处理
- 若备份服务器侧相关参数发生变化,请重新配置备份参数。
- 修改备份服务器用户密码后,请重新备份管理面,具体操作请参见手工备份管理面的应用程序和数据。
备份产品
备份参数配置成功后,为了确保系统的可靠性,需定期备份产品数据。在因误操作或者其他情况导致产品无法正常使用时,可使用备份数据恢复产品。
备份产品数据
产品升级前、产品升级后或修改影响产品功能的配置文件前,用户可通过管理面手工备份产品数据,以确保在因误操作或其他情况导致产品异常时,可使用备份数据将产品恢复正常。
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 已配置备份参数。具体操作请参见配置备份参数。
- 所有节点上的数据库实例处于“正在运行”状态,具体操作请参见监控数据库。
- 所有节点上的服务处于正常运行状态,具体操作请参见监控服务。
- 确保产品的部署状态为“已安装”,具体操作请参见如何查看产品部署状态。
背景信息
备份数据中可能会包含用户设置的个人信息(包括个人姓名、电话号码和邮箱地址等)和所有的用户名及密码。因此您需遵循所适用国家的法律或公司用户隐私政策采取足够的措施,以确保用户的个人数据受到充分的保护。
操作须知
- 为确保备份过程中产品数据准确性,请避开业务发放时间段进行手工备份。
- 若产品数据备份任务的任务状态为部分成功,管理面支持使用该任务生成的备份文件对备份成功的这部分数据进行恢复。由于备份的文件是不完整的,所以恢复后产品可能无法正常启动或运行,请谨慎操作。
- 若需要完成优先级更高的任务,可强制停止备份产品数据任务,具体操作请参见强制停止备份产品数据任务。
- 对于异地容灾场景,产品数据的备份任务只支持在主用站点上执行。若正在执行除冻结产品服务外的其他容灾相关任务,请待容灾任务执行完成后再执行本节操作,避免备份任务或者容灾任务失败。
操作步骤
- 在管理面主菜单中选择 。
- 在“备份产品数据”页面,参见表3-30完成相关操作。
定时备份产品
产品正常运行过程中,用户可创建产品的应用程序和数据的定时备份任务,将产品应用程序和数据定期保存至备份服务器。在因误操作或者其他情况导致产品无法正常使用时,可将产品恢复至某个时间点的状态。
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 已配置备份参数。具体操作请参见配置备份参数。
- 备份产品数据时,确保所有节点上的数据库实例处于“正在运行”状态,具体操作请参见监控数据库。
- 备份产品数据时,确保产品的部署状态为“已安装”,具体操作请参见如何查看产品部署状态。
背景信息
- 初次在管理面导入产品信息后,管理面会创建默认定时备份产品数据任务。待产品安装完成并成功配置备份参数后,该任务将自动备份产品数据。当升级或扩容等操作使得产品、节点或服务实例有增加、删除等变更时,变更后的数据将在升级或扩容等操作完成后的定时备份任务中自动备份。
备份数据中可能会包含用户设置的个人信息(包括个人姓名、电话号码和邮箱地址等)和所有的用户名及密码。因此您需遵循所适用国家的法律或公司用户隐私政策采取足够的措施,以确保用户的个人数据受到充分的保护。
- 产品的应用程序和数据的备份文件分别存储在备份服务器中,具体路径请参见表3-31,请勿删除该目录下的备份文件,否则将导致恢复产品失败。
操作须知
- 建议错开各定时备份任务的开始时间,如间隔2小时。多个同时开始的备份任务执行顺序说明请参见备份/恢复场景与策略。
- 避免与网元数据同步等冲突造成系统资源占用过高,请将定时备份任务的执行时间与网元数据同步或业务发放等的时间段错开。
- 选择周期定时备份时,备份周期建议设置为24小时。备份周期若设置过长,恢复时可能会导致服务数据丢失过多。请根据实际情况选择。
- 对于异地容灾场景,产品数据的定时备份任务只支持在主用站点上执行,产品应用程序定时备份任务在主用站点和备用站点都支持执行。若需执行除冻结产品服务外的其他容灾操作,请避开定时备份任务时间段,避免定时备份任务或者容灾操作失败。
操作步骤
- 在管理面主菜单中选择 。
- 在“配置定时备份任务”页面,单击“创建”。
- 根据实际场景选择对应操作,进行手工创建定时备份任务。
- 选择“产品数据”,创建产品数据的定时备份任务。
- 选择“产品应用程序”,创建产品应用程序的定时备份任务。
- 选择“数据库应用程序”,创建数据库应用程序的定时备份任务。
- 在“备份对象”区域中,选择待备份对象,参见表3-32完成相关操作。
创建成功的定时备份任务,可以通过“启用状态”按实际需要启用或者停用该任务。
备份产品应用程序
在初始安装产品应用程序后、升级产品应用程序前或升级产品应用程序后,用户可通过管理面备份产品应用程序。当产品应用程序运行异常或升级失败,需要回退到之前的状态时,可使用备份文件将产品应用程序恢复至备份前的状态。
背景信息
产品应用程序的备份文件存储在备份服务器的“/备份服务器用户根目录/配置备份参数的路径/产品名称/static/时间戳/节点名称/APP”路径下,请勿删除该目录下的备份文件,否则待恢复产品应用程序时无可选的备份文件,从而导致恢复产品应用程序失败。
操作须知
对于异地容灾场景,产品应用程序的备份任务在主用站点和备用站点上都支持执行。
操作步骤
- 在管理面主菜单中选择 。
- 在“备份产品应用程序”页面,按照界面上的指引完成相关操作。
备份数据库应用程序
在初始安装数据库应用程序后、数据库应用程序升级前或数据库应用程序升级后,用户可通过管理面实时备份数据库应用程序即在系统运行过程中不会实时发生变化的数据库数据。当数据库应用程序中某文件被损坏或丢失等导致数据库运行异常但节点操作系统还能正常运行时,可使用备份文件将数据库应用程序恢复至备份前状态。
背景信息
数据库应用程序的备份文件存储在备份服务器的“/备份服务器用户根目录/配置备份参数的路径/产品名称/static/时间戳/节点名称/DB”路径下,请勿删除该目录下的备份文件,否则待恢复数据库应用程序时无可选的备份文件,从而导致恢复数据库应用程序失败。
操作须知
若管理节点和产品节点为同一个节点且使用同一个数据库软件时,无法通过该功能备份数据库应用程序,请通过手工备份管理面的应用程序和数据备份数据库应用程序。请参见如何判断管理节点和产品节点是否使用同一个数据库软件,判断是否可以通过备份管理面功能备份数据库应用程序。
对于异地容灾场景,数据库应用程序的备份任务在主用站点和备用站点上都支持执行。若正在执行除冻结产品服务外的其他容灾相关任务,请待容灾任务执行完成后再执行本节操作,避免备份任务或者容灾任务失败。
操作步骤
- 在管理面主菜单中选择 。
- 在“备份数据库应用程序”页面,按照界面上的指引完成相关操作。
备份管理面
请使用管理面定期备份管理面的应用程序和数据,在因管理面自身运行异常或因人为因素导致其异常时,可使用备份文件进行恢复管理面应用程序和数据。
手工备份管理面的应用程序和数据
用户在管理面初始安装后、管理面升级或安装补丁前后、重大业务调整前,建议手工备份管理面,当管理面的服务异常或数据库异常,导致其无法正常访问时,可使用备份包将管理面恢复至备份前的状态。
背景信息
管理面备份文件存储在备份服务器的“/备份服务器用户根目录/配置备份参数的路径/management/management/时间戳/节点名称”路径下,请勿删除该目录下的备份文件,否则待恢复管理面时无可选的备份文件,从而导致恢复管理面失败。
操作须知
请确保没有涉及数据库的操作正在运行,如修改IP地址和修改路由等,否则将导致备份数据不完整。
对于异地容灾场景,管理面的备份任务在主用站点和备用站点上都支持执行。若正在执行除冻结产品服务外的其他容灾相关任务,请待容灾任务执行完成后再执行本节操作,避免备份任务或者容灾任务失败。
操作步骤
- 在管理面主菜单中选择 。
- 在该页面,按照界面上的指引完成相关操作。
定时备份管理面的应用程序和数据
在日常维护中,用户可以创建定时备份管理面任务,定时备份管理面的应用程序和数据。当管理面的服务异常或数据库异常,导致其无法正常访问时,可使用备份包将管理面恢复至备份前的状态,且这种备份方式无需人工干预,降低了维护成本。
背景信息
管理面备份文件存储在备份服务器的“/备份服务器用户根目录/配置备份参数的路径/management/management/时间戳/节点名称”路径下,请勿删除该目录下的备份文件,否则待恢复管理面时无可选的备份文件,从而导致恢复管理面失败。
操作须知
- 避免与网元数据同步等冲突造成系统资源占用过高,请将定时备份任务的执行时间与网元数据同步或业务发放等的时间段错开。
- 建议错开各定时备份任务的开始时间,如间隔2小时。多个同时开始的备份任务执行顺序说明请参见备份/恢复场景与策略。
- 选择周期定时备份时,备份周期建议设置为24小时。备份周期若设置过长,恢复时可能会导致服务数据丢失过多。请根据实际情况选择。
- 对于异地容灾场景,管理面的定时备份任务在主用站点和备用站点上都支持执行。若需执行除冻结产品服务外的其他容灾操作,请避开定时备份任务时间段,避免定时备份任务或者容灾操作失败。
操作步骤
- 在管理面主菜单中选择 。
- 在“配置定时备份任务”页面,单击“创建”。
- 选择管理面对应的备份项,参见表3-33完成相关操作。
创建成功的定时备份任务,可以通过“启用状态”按实际需要启用或者停用该任务。
恢复产品
在因误操作或者其他情况导致产品无法正常使用时,可使用备份数据进行恢复产品数据库应用程序、产品应用程序和产品数据。
- 对于数据恢复到新环境场景,新环境南向IP地址和北向IP地址必须和旧环境保持一致,否则可能会造成业务异常。
- 如果新旧环境网络做了隔离,配置新环境南向IP地址和北向IP地址和旧环境保持一致;
- 如果新旧环境网络未做隔离,数据在新环境上恢复成功之后,请将新环境南向IP地址和北向IP地址修改为和旧环境一致。
- iMaster NCE-Campus不同版本之间的数据不支持恢复。
- 使用老的备份数据进行数据恢复,会丢失备份点后新增加的业务数据。
恢复数据库应用程序
当数据库遭到破坏导致数据库运行异常,但是产品节点的操作系统还能正常运行时,需要恢复数据库应用程序。
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 待恢复的数据库应用程序已存在备份文件。
- 如果待恢复的业务节点下不存在“/opt/backup/backuptmp”目录,请执行如下命令,创建“backuptmp”文件夹并设置属组。
- 使用PuTTY工具以sopuser用户通过SSH方式登录待恢复的业务节点。
- 执行以下命令,切换到root用户。
> su - root
Password:root用户的密码
- 创建“backuptmp”文件夹并设置属组。
# mkdir -p /opt/backup/backuptmp 2>/dev/null
# chown root:ossgroup /opt/backup
# chown ossadm:ossgroup /opt/backup/backuptmp
# chmod 750 /opt/backup/backuptmp
- 对于异地容灾场景,需先删除主备站点间的容灾关系,具体操作请参见删除异地容灾系统。
操作须知
- 恢复数据库应用程序前管理面会自动停止使用到该数据库的iMaster NCE-Campus服务和数据库。
- 当储存于备份服务器的备份文件被人为删除或在恢复界面的“备份文件”列中未显示,单击“同步”可将备份文件信息同步至管理面。请确保管理面的“配置备份参数”中的备份服务器信息与所需备份文件所在的备份服务器信息一致,例如:备份服务器IP地址、用户名、密码和路径。
- 系统会自动对备份数据完整性进行校验,校验通过才能进行恢复。
- 对于异地容灾场景,若正在执行除冻结产品服务外的其他容灾相关任务,请待容灾任务执行完成后再执行本节操作,避免恢复任务或者容灾任务失败。
操作步骤
- 在管理面主菜单中选择 。
- 在“恢复数据库应用程序”页面,选择待恢复文件所在的备份服务器。当存在多个备份服务器时,在“备份服务器”下拉框中选择对应的备份服务器IP地址,否则请跳过本步骤。
- 选择待恢复对象,在“备份文件”列,选择目标文件,参见表3-34完成相关操作。
- 在管理面主菜单中选择“系统 > 任务列表”,可查看恢复数据库应用程序任务执行情况。
- 如果“任务状态”显示“执行成功”,则说明数据库应用程序恢复成功。
- 如果“任务状态”显示“执行失败”,则说明数据库应用程序恢复失败,请联系华为技术支持工程师。
- 恢复产品数据。具体操作请参见恢复产品数据。
- 启动服务,具体操作请参见启动业务面服务。
- 对于异地容灾场景,需建立主备站点的容灾关系,具体操作请参见配置异地容灾系统。
恢复产品应用程序
当产品应用程序的文件损坏或者配置文件遭到破坏导致产品应用程序异常,但是产品节点的操作系统还能正常运行时,需要恢复产品应用程序。
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 待恢复的产品应用程序已存在备份文件。
- 如果待恢复的业务节点下不存在“/opt/backup/backuptmp”目录,请执行如下命令,创建“backuptmp”文件夹并设置属组。
- 使用PuTTY工具以sopuser用户通过SSH方式登录待恢复的业务节点。
- 执行以下命令,切换到root用户。
> su - root
Password:root用户的密码
- 创建“backuptmp”文件夹并设置属组。
# mkdir -p /opt/backup/backuptmp 2>/dev/null
# chown root:ossgroup /opt/backup
# chown ossadm:ossgroup /opt/backup/backuptmp
# chmod 750 /opt/backup/backuptmp
- 对于异地容灾场景,需先删除主备站点间的容灾关系,具体操作请参见删除异地容灾系统。
操作须知
- 恢复产品应用程序前管理面会自动停止iMaster NCE-Campus所有服务。
- 当储存于备份服务器的备份文件被人为删除或在恢复界面的“备份文件”列中未显示,单击“同步”可将备份文件信息同步至管理面。请确保管理面的“配置备份参数”中的备份服务器信息与所需备份文件所在的备份服务器信息一致,例如:备份服务器IP地址、用户名、密码和路径。
- 系统会自动对备份数据完整性进行校验,校验通过才能进行恢复。
- 对于异地容灾场景,若正在执行除冻结产品服务外的其他容灾相关任务,请待容灾任务执行完成后再执行本节操作,避免恢复任务或者容灾任务失败。
恢复产品数据
当数据库实例运行状态正常,但产品数据异常,导致产品无法正常使用时,可以按照恢复场景恢复产品数据。
前提条件
背景信息
如果配置了多个备份服务器,则在执行备份操作时,同样的备份数据在所有备份服务器上都存储一份。各备份服务器之间互为冗余。相应的,在执行恢复操作时,多个备份服务器均可提供备份数据,系统默认随机选中其中的一个备份服务器,用户也可以选择其他的备份服务器提供备份数据。
操作须知
- 当储存于备份服务器的备份文件被人为删除或在恢复界面的“备份文件”列中未显示,单击“同步”可将备份文件信息同步至管理面。请确保管理面的“配置备份参数”中的备份服务器信息与所需备份文件所在的备份服务器信息一致,例如:备份服务器IP地址、用户名、密码和路径。
- 系统会自动对备份数据完整性进行校验,校验通过才能进行恢复。
操作步骤
- 在管理面主菜单中选择 。
- 在“恢复产品数据”页面,选择待恢复文件所在的备份服务器。当存在多个备份服务器时,在“备份服务器”下拉框中选择对应的备份服务器IP地址,否则请跳过本步骤。
- 选择产品,在“备份文件”列,选择目标文件,按照界面指引完成相关操作。
- 若选择的备份文件是备份成功了部分数据的备份文件,则该恢复任务只会恢复部分成功的数据。由于备份的文件是不完整的,所以恢复后产品可能无法正常启动或运行,请谨慎操作。
- 创建产品数据恢复任务时,用户可以在弹出的提示框中根据实际需要选择恢复完成后自动启动产品服务,或者稍后手工启动。手工启动具体操作请参见启动业务面服务。
- 在管理面主菜单中选择“系统 > 任务列表”,可查看恢复产品数据任务执行情况。
- 如果“任务状态”显示“执行成功”,则说明产品数据恢复成功。
- 如果“任务状态”显示“部分成功”,则说明部分服务实例恢复失败,请联系华为技术支持工程师。
- 如果“任务状态”显示“执行失败”,则说明产品数据恢复失败,请联系华为技术支持工程师。
- 对于异地容灾场景,需建立主备站点的容灾关系,具体操作请参见配置异地容灾系统。
- 对于异地容灾场景,检查产品的“数据同步状态”。
- 在主站点管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看产品的“数据同步状态”是否为“异常”。
- 是,强制同步主备产品数据,具体操作请参见同步主备产品数据。
- 否,结束操作。
异地恢复产品数据
管理面支持将A站点管理面备份的产品数据在B站点恢复,从而B站点成为A站点的备份站点。当用户迁移机房或单站点故障恢复,需要重新安装管理面导入备份数据时,可通过该功能恢复数据。本节以A、B站点为例,介绍异地恢复的操作。
前提条件
- A站点与B站点的部署方案要求一致,使用相同的软件包安装,即两站点上节点个数和规格一致,管理面和产品的语言、版本、服务、服务版本、产品、节点名称和密钥相同。
- A站点与B站点的时区时间要求一致。
- 已获取A站点和B站点的备份服务器IP地址、备份路径和具有读写权限的备份服务器用户及其密码。本节操作以OMP_02节点作为备份服务器为举例。
背景信息
- 异地恢复支持的场景如下表3-36。
A站点与B站点的操作系统要求相同,例如:都是EulerOS。
- 异地恢复产品数据时,如表3-37中的数据未恢复。
表3-37 未恢复的数据
所属域
特性
未恢复A站点的数据
未恢复的影响
NCE(公共)
运维管理
历史监控数据、调用链数据、告警/事件数据、健康检查报告
B站点的系统中无法查询A站点系统中的统一监控、调用链、告警/事件和健康检查报告的历史数据。
北向
OMC告警临时文件
无法从B站点查询A站点已经上报的告警,且B站点告警上报的流水号将会从1开始重新计数。
OMC告警性能存量导出文件
B站点的系统中无法获取A站点已导出的OMC告警性能存量文件。
REST存量导出文件
B站点的系统中无法获取A站点已导出的REST存量导出文件。
性能文本导出文件
B站点的系统中无法获取A站点已导出的性能文本导出文件。
网元软件管理
网元备份文件、网元软件库文件
备站点的系统中无法获取主站点系统中的网元备份文件、网元软件库文件。
NCE(Super)
业务管理、资源管理
Redis缓存数据
不影响功能,B站点首次查询时从DB查询,时延会稍微增大,查询完从DB重新加载到Redis。
NCE(传送域)
网元通信
NCE与网元通信的SSL证书文件
如果A站点与网元通信的证书是用户自定义的,将导致B站点无法与网元正常连接通信。
业务运维
智能路径优化、重路由记录
B站点的系统中无法查询A站点系统中产生的智能路径优化、重路由记录。
定时任务导出
传送定时任务导出的文件,如DCC视图导出、SDH资源统计、SFP信息采集、WDM资源统计、单板制造信息、传送DCN报表导出、传送性能采集与导出、存量报表导出、导出Native以太业务、导出WDM路径、微波链路报表导出、网关网元核心路由数和ECC链路数导出、网络健康性检查、脚本导出、采集网元mml配置等任务导出的文件。
B站点的系统中无法获取A站点定时任务已导出的文件。
操作须知
对于异地容灾场景,若正在执行除冻结产品服务外的其他容灾相关任务,请待容灾任务执行完成后再执行本节操作,避免恢复任务或者容灾任务失败。
操作步骤
- 获取存储于A站点备份服务器的产品数据备份文件至PC。
- 使用FileZilla工具以备份服务器用户登录A站点的备份服务器,具体请参见使用FileZilla传输文件。
- 在“备份服务器SFTP用户根目录/备份参数中所配路径/产品名称/dynamic”路径下,下载产品数据备份文件至PC。
该路径为产品数据备份文件的存储路径,例如,OMP_02节点的“/opt/backup/ftpboot/backup/NCECAMPUS/dynamic”路径。
- 如果A站点是具有容灾关系的站点,备份文件保存至本地PC后,打开以时间戳命名的备份文件,查看是否存在“dr_站点名称.tag”和“dr_站点名称.tag.sign”容灾站点标识文件。
- 使用PuTTY工具以sopuser用户通过SSH方式登录B站点的备份服务器。具体请参见使用PuTTY登录服务器。
- 执行以下命令,查看“NCECAMPUS”文件夹是否存在。
> su - root
Password:root用户的密码
# cd /opt/backup/ftpboot/backup/
# ll
- 当系统回显如下类似信息时,表示当前目录下“NCECAMPUS”文件夹存在,执行4。
drwx------. 3 ftpuser ossgroup 4096 Nov 7 22:09 NCECAMPUS
- 当系统回显如下信息时,表示当前目录下“NCECAMPUS”文件不存在,则执行以下命令,创建“NCECAMPUS/dynamic”目录,再执行5。
total 0
# cd /opt/backup/ftpboot/backup/
# mkdir -p NCECAMPUS/dynamic
# chown ftpuser:ossgroup /opt/backup/ftpboot/backup/NCECAMPUS
# chown ftpuser:ossgroup /opt/backup/ftpboot/backup/NCECAMPUS/dynamic
# chmod 700 /opt/backup/ftpboot/backup/NCECAMPUS/
# chmod 700 /opt/backup/ftpboot/backup/NCECAMPUS/dynamic
# cd /opt/backup/ftpboot/backup/NCECAMPUS/
# ll
当系统回显如下类似信息时,表示备份目录创建成功。
drwx------. 3 ftpuser ossgroup 4096 Nov 7 22:09 dynamic
- 当系统回显如下类似信息时,表示当前目录下“NCECAMPUS”文件夹存在,执行4。
- 执行以下命令,查看“dynamic”文件夹是否存在。
> su - root
Password:root用户的密码
# cd /opt/backup/ftpboot/backup/NCECAMPUS/
# ll
- 当系统回显如下类似信息时,表示当前目录下“dynamic”文件夹存在,执行5。
drwx------. 3 ftpuser ossgroup 4096 Nov 7 22:09 dynamic
- 当系统回显如下信息时,表示当前目录下“dynamic”文件不存在,则执行以下命令,创建“dynamic”目录,再执行5。
total 0
# cd /opt/backup/ftpboot/backup/NCECAMPUS/
# mkdir dynamic
# chown ftpuser:ossgroup /opt/backup/ftpboot/backup/NCECAMPUS/dynamic
# chmod 700 /opt/backup/ftpboot/backup/NCECAMPUS/dynamic
# ll
当系统回显如下类似信息时,表示备份目录创建成功。
drwx------. 3 ftpuser ossgroup 4096 Nov 7 22:09 dynamic
- 当系统回显如下类似信息时,表示当前目录下“dynamic”文件夹存在,执行5。
- 设置B站点的备份服务器“/opt/backup/sopuserboot”文件夹属组和权限。
- 使用PuTTY工具以sopuser用户通过SSH方式登录B站点的备份服务器。
执行以下命令,切换到root用户。
> su - root
Password:root用户的密码
设置“/opt/backup/sopuserboot”文件夹属组和权限。
# chown sopuser:ossgroup /opt/backup/sopuserboot
# chmod 750 /opt/backup/sopuserboot
- 使用FileZilla工具以sopuser用户登录B站点的备份服务器。具体请参见使用FileZilla传输文件。
- 将在A站点获取的产品数据的备份数据包上传到B站点备份服务器的“/opt/backup/sopuserboot”目录下。
- 把产品数据备份文件移至“/opt/backup/ftpboot/backup/NCECAMPUS/dynamic”目录下,并设置产品数据备份文件的权限。
- 使用PuTTY工具以sopuser用户通过SSH方式登录B站点的备份服务器。
- 执行以下命令,设置产品数据备份文件的权限。
> su - root
Password:root用户的密码
# cd /opt/backup/sopuserboot
# mv 时间戳文件夹 /opt/backup/ftpboot/backup/NCECAMPUS/dynamic/
# chmod 700 /opt/backup/ftpboot/backup/NCECAMPUS/dynamic/时间戳文件夹
# chown -R ftpuser:ossgroup /opt/backup/ftpboot/backup/NCECAMPUS/dynamic/时间戳文件夹
# find /opt/backup/ftpboot/backup/NCECAMPUS/dynamic/时间戳文件夹 -type f| xargs chmod 600
- 执行以下操作,将备份文件自动同步至B站点。
- 登录B站点的管理面,具体操作请参见登录管理面。
- 在主菜单选择“备份与恢复 > 数据恢复 > 恢复产品数据”。
- 在“恢复产品数据”页面,单击“同步”。
- 在“备份文件”列查看B站点的备份记录是否与A站点的备份记录一致。
- 是,执行11。
- 否,请联系华为技术支持工程师。
- 执行产品数据恢复任务,检查恢复任务是否恢复成功。具体操作请参见恢复产品数据。
- 是,异地恢复成功。
- 否,请联系华为技术支持工程师。
对于NCECAMPUS异机恢复场景,若故障环境A使用了南向采集UniRCLVSService微服务,环境B的备份数据导入故障环境A后,LVS的配置也会导入,即环境A中LVS IP(浮动IP)会变成环境B的LVS IP。环境A在数据恢复后使用了环境B的LVS IP,这可能会引发设备数据接收问题,解决上述问题,解决上述问题,具体请参见如何处理异机恢复场景设备数据接收问题。
配置产品
产品安装后,会自动添加产品信息到管理面,无需手动添加产品信息。配置产品信息页面中手动添加产品信息的功能,iMaster NCE-Campus当前软件版本暂不支持,只支持删除功能。
操作须知
- 删除产品信息时,会删除以下信息,并将该产品从管理面移除,请谨慎操作。
- 该产品下所有节点上安装的服务和数据。
- 该产品的历史备份数据。
- 节点故障需删除节点使用新节点替换,或者扩容失败且回退失败时需删除节点重新增加节点。删除节点时存在如下要求:
- 若节点上部署了ZookeeperService或者Etcd服务,该节点不允许删除。
- 若管理节点和产品节点为同一节点,该节点不允许删除。
- 若数据库节点存在主备节点,需都删除。
- 删除产品下的节点时,会删除节点上安装的服务和数据,并将该节点从管理面移除,请谨慎操作。
- 删除产品下的节点时,系统会自动先停止待删除节点的服务和数据库。
操作步骤
- 在管理面的主菜单中选择“产品 > 产品规划 > 导入产品信息”。
- 在“导入产品信息”页面,选择待删除的产品,单击“删除”。
- 修改成功后历史备份数据会失效,系统会自动创建相关的定时备份任务重新备份管理面的应用程序和数据、产品节点操作系统。请在管理面主菜单中选择“系统 > 任务列表”查看系统是否已自动创建相关的定时备份任务,若未创建则需手工备份,具体操作请参见备份产品。
备份数据会占用系统资源,若定时备份任务时间段业务繁忙,请根据业务需要在管理面主菜单中选择“备份与恢复 > 配置 > 配置定时备份任务”修改相应定时备份任务的时间。
- 对于异地容灾场景,删除节点后需连接主备站点产品,具体操作请参见连接主备站点产品。
配置网络
在管理面上可统一配置系统中各节点的网络信息,为保证系统的正常运行,请确保各节点间通信正常。
网络配置场景与策略
在进行网络配置前,建议用户先了解网络配置的场景与对应的策略,确保用户可以成功进行网络配置。
典型网络配置场景与策略
表3-38仅提供各节点网络配置(如主机名、网口、IP地址及路由)的对应策略,请根据实际情况调整并完成其他相关操作。
场景描述 |
配置对象 |
配置方法 |
---|---|---|
待配置的网络与当前网络处于相同网段,如管理IP地址由10.0.0.1变更为10.0.0.X(X为2~254)。 |
单个或所有节点 |
请登录管理面进行相应的网络配置。 |
待配置的网络与当前网络处于不同网段,如机房搬迁。 |
所有节点 |
|
配置网口
当网口配置发生变化时(如机房搬迁、子网变更等),为确保系统的正常运行,需要同步修改网口配置。用户可以将虚拟机中网口添加到管理面后,从而通过管理面对该网口进行管理和维护。
背景信息
根据业务网络场景设置网口用途,除下表中所列网口用途外,还可在管理面上为各IP地址分配如下用途:
- Southbond2~Southbond10:若需要隔离单节点的多个南向IP地址,可为各南向IP地址分配不同的南向用途,如分别设置为Southbound和Southbound2。
- Northbound2~Northbound3:若需要隔离单节点的多个北向IP地址,可为各北向IP地址分配不同的北向用途,如分别设置为Northbound和Northbound2。
- Multiserver~Multiserver3:若Common_Service节点的浮动IP异常,可替代浮动IP用于登录web客户端。
网络平面 |
网口 |
网口用途 |
涉及节点 |
说明 |
---|---|---|---|---|
管理网络 |
eth4 |
HardwareMgr |
OMP |
用于在iMaster NCE-Campus上监控硬件告警,默认配置在OMP节点的eth4网卡。 |
节点间通信 |
eth0 |
管理IP |
所有节点 |
用于OMP节点管理各节点以及业务节点间互相通信。 |
Maintenance |
仅业务节点 |
|||
异地容灾网络 |
eth0:1 |
ACCESSIP |
- |
用于主备站点间消息通道相互通信。 |
业务网络 (南北向不隔离) |
eth2 |
Service、Northbound和access-external |
NMS |
用于业务节点与上层OSS通信或登录操作系统。 |
floatingbase |
Common_Service |
用于在Common_Service节点配置浮动IP的固定IP。 |
||
Northbound、external-access |
Common_Service |
用于在Common_Service节点的浮动IP可用于登录业务面web客户端。 |
||
服务管理IP |
OMP |
用于通过OMP节点登录管理面web客户端。 |
||
Southbound |
TController_Driver01~02 |
用于业务节点与南向设备进行通信。 |
||
业务网络 (南北向隔离,管控不隔离) |
eth3 |
Service、Northbound和access-external |
所有节点 |
用于各节点与上层OSS通信、登录操作系统或连接客户端。 |
floatingbase |
Common_Service01~02 |
用于在Common_Service节点配置浮动IP的固定IP。 |
||
Northbound、external-access |
Common_Service01~02 |
用于在Common_Service节点的浮动IP可用于登录业务面web客户端。 |
||
服务管理IP |
OMP |
用于通过OMP节点登录管理面web客户端。 |
||
eth2 |
Southbound |
TController_Driver01~02 |
用于业务节点与控制单元南向设备进行通信。 |
|
eth5 |
Southbound |
NMS |
用于业务节点与管理单元南向设备进行通信。 |
|
业务网络 (南北向隔离,管控隔离) |
eth3 |
Service、Northbound和access-external |
所有节点 |
用于各节点与上层OSS通信、登录操作系统或连接客户端。 |
floatingbase |
Common_Service01~02 |
用于在Common_Service节点配置浮动IP的固定IP。 |
||
Northbound、external-access |
Common_Service01~02 |
用于在Common_Service节点的浮动IP可用于登录业务面web客户端。 |
||
服务管理IP |
OMP |
用于通过OMP节点登录管理面web客户端。 |
||
eth2 |
Southbound |
TController_Driver01~02 |
用于业务节点与控制单元南向设备进行通信。 |
|
eth5 |
Southbound |
NMS |
用于业务节点与管理单元南向设备进行通信。 |
|
业务网络(IP+Optical) |
eth3 |
Service、Northbound和access-external |
所有节点 |
用于各节点与上层OSS通信、登录操作系统或连接客户端。 |
floatingbase |
Common_Service01~02 |
用于在Common_Service节点配置浮动IP的固定IP。 |
||
Northbound、external-access |
Common_Service01~02 |
用于在Common_Service节点的浮动IP可用于登录业务面web客户端。 |
||
服务管理IP |
OMP |
用于通过OMP节点登录管理面web客户端。 |
||
eth2 |
Southbound |
TController_Driver01~02 |
用于业务节点与IP域控制单元南向设备进行通信。 |
|
eth5 |
Southbound |
NMS |
用于业务节点与IP域管理单元南向设备进行通信。 |
|
eth2 |
Southbound |
TController_Driver01~02 |
用于业务节点与传送域控制单元南向设备进行通信。 |
|
eth5 |
Southbound |
NMS |
用于业务节点与传送域管理单元南向设备进行通信。 |
IP用途 |
描述 |
用途说明 |
---|---|---|
HDmgmtbound |
硬件管理网络IP |
硬件管理网络的浮动IP,通过这个IP管理接收硬件告警。 |
HDmgmtFloatingBase |
硬件管理网络浮动IP的基础固定IP |
硬件管理网络的固定IP |
HAdisasterbound |
异地容灾心跳IP |
异地HA心跳IP,用来检测对方是否健在。 |
PCEPdbs |
DBS服务集群浮动IP |
FI的DB浮动IP |
PCEPweb |
WEB服务集群浮动IP |
FI的Web访问浮动IP |
PCEPoms |
OMS服务集群浮动IP |
FI的OM管理面浮动IP |
JHS |
JHS服务集群浮动IP |
JHS服务集群浮动IP |
lvs-virtual-ip |
LVS服务集群浮动IP |
ODAE使用的,对接的lvs的浮动IP。(input.json有) |
PCEPlvs |
LVS服务集群浮动IP |
ODAE使用的,对接的lvs的浮动IP。(roc网站上,赋值给lvs-virtual-ip) |
VimBound |
Vim服务南向IP |
Vim层面对接I层云服务(例如:FusionSphere、FusionStage等) VimBound在LCM上是指浮动IP |
Service |
平台服务应用IP |
业务面外部IP。 |
INNER_ACCESS |
内部接入 |
业务面内部通讯IP |
Analyzer_SERVER_IP |
Analyzer服务IP |
分析器节点容灾(主备)的浮动IP(eth0) |
NMS_SERVER_IP |
NMS服务IP |
管理域微服务使用的本地IP |
Southbound |
南向网络通信浮动IP |
南向接入1 |
Southbound2BaseIP |
南向网络2浮动IP的基础固定IP |
南向接入基础固定IP2 |
BGPSouthBound |
控制服务南向网络浮动IP |
IP控制域的南向浮动ip地址,和设备通讯。 |
Southbound |
南向网络通信IP |
南向接入1 |
LVS-VIP2 |
LVS南向网络2浮动IP |
LVS(负载均衡)南向浮动IP,与网元连接。当前没有用。 |
LVS-VIP |
LVS南向网络浮动IP |
LVS(负载均衡)南向浮动IP,与网元连接。(eth5) |
SouthboundBaseIP |
南向网络基础固定IP |
南向接入基础固定IP1 |
Northbound |
北向网络通信IP |
北向接入1 |
NorthboundBaseIP |
北向网络浮动IP的基础固定IP |
北向接入基础固定IP1 |
AnalyzerCollector_SERVER_IP |
Analyzer采集服务IP |
分析采集器节点容灾(主备)的浮动IP(eth0) |
ommha_heartbeat |
ommha心跳IP |
本地主备需要使用OMMHA,这个是OMMHA服务自己主备之间的心跳IP。 |
Data_Replication_IP |
数据复制IP |
异地容灾场景主备站点产品数据复制使用的IP地址。 |
DRHEARTBEAT |
数据复制/心跳IP |
用于异地容灾场景主备站点之间数据复制和心跳检测。 |
globalBackendLBFloatIP |
系统间通信浮动IP |
用于系统间服务通信和主备站点之间服务通信。 |
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 虚拟机上已存在待添加到管理面进行管理的网口。
- 对于异地容灾场景,配置网口前需要解除容灾关系,具体如下:
- 配置产品节点的网口前需先分离主备站点产品,具体操作请参见分离主备站点产品。
- 若产品节点和管理节点为同一个节点,配置该节点的网口前需先删除主备站点的容灾关系,具体操作请参见删除异地容灾系统。判断管理节点和产品节点是否为同一个节点,具体操作请参见如何判断节点的部署模式。
- 配置管理节点的网口前,需先删除主备站点的容灾关系,具体操作请参见删除异地容灾系统。
操作须知
- 在分布式场景中,iMaster NCE-Campus安装完成后,需要添加管理网络的OMP_01和OMP_02节点的eth4网口,便于管理面能管理OMP节点硬件管理网络IP。
- 删除网口时,会删除对应网口的IP地址,并将该网口从管理面移除,但不会删除虚拟机中网口。
- 如果OMP节点有部署MCZKService服务,在配置网口期间,系统会自动重启MCZKService服务。
- 在MCZKService服务重启期间,该服务监控的服务也同时被重启进而暂时不可用,重启后恢复正常,
- 在MCZKService服务重启期间,因为MCZKService服务停止可能导致业务面会上报“101212 连接ZooKeeper失败”告警,属正常现象。待MCZKService重启后,业务面告警自动清除。
- 配置网口期间,如果配置的是管理节点的网口,系统会自动重启所有节点的OMMHAService服务,如果配置的是产品节点的网口,则系统会自动重启该产品所有节点上的OMMHAService服务。在OMMHAService服务重启期间,该服务监控的服务也同时被重启进而暂时不可用,重启后恢复正常。如果管理节点或者产品节点均没有部署OMMHAService服务则不涉及。
- 当产品服务的状态处于非“正在运行”状态时,增加或者删除网口完成后系统会自动启动产品服务。
增加或者删除未配置IP地址的网口完成后,系统不需要也不会启动产品服务。
- 对于异地容灾场景,如果配置的网口是备站点的网口,配置网口完成后,请取消选中“警告”对话框中“配置网口完成后自动启动产品服务”。
- 对于异地容灾场景,先在主站点上配置网口,再在备站点执行同样的配置,确保主备站点上的网口配置一致。
- 当存在故障的OMP节点时,请先恢复节点为正常状态,否则会导致配置网口失败,具体操作请参见《故障处理》中的“管理节点故障”章节。
- 配置网口后会导致管理面的应用程序和数据、OMP节点操作系统、产品节点操作系统、数据库应用程序、产品应用程序和产品数据的历史备份数据失效,系统会自动创建管理面的应用程序和数据的定时备份任务。
备份数据会占用系统资源,若定时备份任务时间段业务繁忙,请根据业务需要在管理面主菜单中选择“备份与恢复 > 配置 > 配置定时备份任务”修改相应定时备份任务的时间。
操作步骤
- 在管理面主菜单中选择“维护 > 网络配置 > 配置网口”。
- 在“配置网口”页面,按照界面上的指引完成相关操作。
- 如果配置网口完成后,还需要做其他需要重启产品服务的配置操作,请取消选中“警告”对话框中的“配置网口完成后自动启动产品服务”,则配置网口完成后系统不会自动启动产品服务,从而避免产品服务被多次重启。
- 对于异地容灾场景,如果在备站点上配置网口,请取消选中“警告”对话框中“配置网口完成后自动启动产品服务”,避免备站点上的产品服务被重启,造成双主运行的异常状态。
- 对于异地容灾场景,配置网口后需重新建立容灾关系,具体如下:
配置路由
当网络配置发生变化(如机房搬迁、子网变更等)或者需要与多个不同网段的目的网络通信时,为确保系统的正常运行,需要同步修改路由配置。当系统与对端目的地址之间没有配置路由时,将根据默认路由进行通信。
前提条件
- 已获取路由的目标网络、子网掩码和网关。
- 已登录管理面,具体操作请参见登录管理面。
操作须知
- 删除管理节点的路由时,请勿删除用于连接管理面的路由,否则,将无法登录管理面。
- 当用户配置两条相同目的地址的路由时,需要在“配置路由”页面手工删除无用的路由,否则会导致网络不通。
操作步骤
- 在管理面主菜单中选择“维护 > 网络配置 > 配置路由”。
- 在“选择节点并查询所选节点的路由”区域框中选择待修改路由信息的节点。
- 单击“查询”。
- 在“配置路由”区域框中对已选中节点下的路由进行修改,增加或删除,具体请参见表3-41完成相关操作。表3-41 配置路由
任务
操作指导
修改路由
当查询到的信息中,网口名称显示为“-”时,表示当前存在默认路由。如果已经存在默认路由则不能添加,只能修改。
一个协议类型的IP地址(例如:IPv4或者IPv6)只能有一个默认路由。- 选中并修改路由。
- 修改默认路由:选中“网口名称”为“-”的网口,修改“网关/下一跳”。
- 修改非默认路由:选中待修改路由信息的网口,并根据用户规划配置下拉选择对应的“网口名称”并修改“目标网络”、“子网掩码/前缀长度”和“网关/下一跳”。
- 单击“应用”。说明:
单击“重置”则相当于取消当前页面中的参数设置,页面参数将恢复至选择节点查询之前的状态。
- 在“确认”对话框中,单击“是”。
系统创建任务成功。可单击“任务列表”查看任务执行情况。如果任务执行失败,请根据任务详细信息定位并解决问题。
添加路由
当不存在默认路由时或者需要添加新路由时,请按照以下方法增加路由:
- 单击“添加路由”。
- 选择需要添加路由的节点。
- 添加默认路由:选中“默认路由”,并配置“网关/下一跳”。
- 添加非默认路由:下拉选择“网口名称”,并配置“目标网络”、“子网掩码/前缀长度”和“网关/下一跳”。
- 单击“确定”。
- 在“确认”对话框中,单击“是”。
系统创建任务成功。可单击“任务列表”查看任务执行情况。如果任务执行失败,请根据任务详细信息定位并解决问题。
删除路由
当路由已经废弃,为节省空间,可以删除废弃的路由。
- 选中待删除的路由并删除。
- 删除默认路由:选中待删除的默认路由,单击“删除路由”。
- 删除非默认路由:选中一个或多个待删除的非默认路由,单击“删除路由”。
- 在“警告”对话框中,单击“确定”。
系统创建任务成功。可单击“任务列表”查看任务执行情况。如果任务执行失败,请根据任务详细信息定位并解决问题。
说明:删除管理节点的路由时,请勿删除用于连接管理面的路由,否则,将无法登录管理面。
- 选中并修改路由。
配置浮动IP地址
为同类型的多个节点配置浮动IP地址,可避免因单节点故障而导致系统无法继续对外提供服务。使用EasySuite安装iMaster NCE-Campus过程中,iMaster NCE-Campus已配置浮动IP地址。若网络中存在IP地址冲突或网络整体规划变更(如机房搬迁、子网变更等),请对应修改该浮动IP地址。
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 待修改产品的数据库运行正常,具体操作请参见监控数据库。
- 待配置浮动IP地址的多个节点必须具有相同的节点类型,具体操作请参见监控数据库中的节点类型。
- 对于异地容灾场景,修改浮动IP地址前需要解除容灾关系,具体如下:
- 修改产品节点的浮动IP地址前需先分离主备站点产品,具体操作请参见分离主备站点产品。
- 若产品节点和管理节点为同一个节点,修改该节点的浮动IP地址前需先删除主备站点的容灾关系,具体操作请参见删除异地容灾系统。判断管理节点和产品节点是否为同一个节点,具体操作请参见如何判断节点的部署模式。
- 修改管理节点的浮动IP地址前,需先删除主备站点的容灾关系,具体操作请参见删除异地容灾系统
操作须知
- 业务正常使用所依赖的浮动IP地址已经配置成不可删除,防止误操作删除导致业务异常。如果选中该浮动IP地址,删除按钮灰化则表示该浮动IP已经配置成不可删除。
- 配置了浮动IP地址后,系统默认会自动重启产品服务。
- 如果OMP节点有部署MCZKService服务,在配置浮动IP地址期间,系统会自动重启MCZKService服务。在MCZKService服务重启期间,因为MCZKService服务停止可能导致业务面会上报“101212 连接ZooKeeper失败”告警,属正常现象。待MCZKService重启后,业务面告警自动清除。
- 当新、旧浮动IP地址属于不同网段时,需对应修改其固定IP地址,使浮动IP地址与其固定IP地址始终处于同一网段,修改顺序不做要求。
- 当存在故障的OMP节点时,请先恢复节点为正常状态,否则会导致配置浮动IP地址失败,具体操作请参见《故障处理》中的“管理节点故障”章节。
- 配置浮动IP地址后会导致管理面的应用程序和数据、OMP节点操作系统、产品节点操作系统、数据库应用程序、产品应用程序和产品数据的历史备份数据失效,系统会自动创建管理面的应用程序和数据的定时备份任务。
备份数据会占用系统资源,若定时备份任务时间段业务繁忙,请根据业务需要在管理面主菜单中选择“备份与恢复 > 配置 > 配置定时备份任务”修改相应定时备份任务的时间。
操作步骤
- 在管理面主菜单中选择“维护 > 网络配置 > 配置浮动IP地址”。
- 在“配置浮动IP地址”页面,按照界面上的指引完成相关操作。
- 如果配置浮动IP地址完成后,还需要做其他需要重启产品服务的配置操作,请取消选中“警告”对话框中“配置浮动IP地址完成后自动启动产品服务。”,则配置浮动IP地址完成后系统不会自动启动产品服务,避免产品服务被多次重启。
- 对于异地容灾场景,如果修改的浮动IP地址是备站点的浮动IP地址,请取消选中“警告”对话框中“配置浮动IP地址完成后自动启动产品服务”,避免备站点上的产品服务被重启,造成双主运行的异常状态。
- 当系统部署了OMMHA服务时,且业务面节点已有浮动IP地址,需要在相同节点上新增或者删除一个浮动IP地址时,为使修改的业务面的浮动IP地址(业务面登录IP地址)生效,需要修改配置参数,具体操作请参见浮动IP地址增加或删除后修改配置参数。
- 对于异地容灾场景,修改浮动IP地址后需重新建立容灾关系,具体如下:
配置告警
通过管理面接收硬件侧(如硬件服务器)转发的告警,并将告警上报至业务面,最终在业务面进行统一监控。
修改服务器告警转发参数(机架服务器)
使用EasySuite安装iMaster NCE-Campus过程中,已完成机架服务器用于发送告警的相关配置。若手工修改了机架服务器告警转发参数,需同步修改管理面中记录的接收参数。
背景信息
硬件告警由服务器控制卡管理模块负责监控,通过EasySuite默认配置的业务分发平面的集群内部浮动IP地址1,可实现iBMC与管理面节点间通信,帮助管理面接收硬件告警。
操作步骤
- 发货设备iBMC版本为5.00及以上,请按下列步骤操作。
- 在iBMC图形化界面,选择“Trap报文通知”,参考表1告警Trap报文通知设置完成相关操作后单击“保存”。 。单击
- 在“设置Trap服务器和报文格式”中,单击“编辑”设置Trap服务器和报文格式。具体参考表2设置Trap服务器和报文格式,完成相关操作后单击“保存”。
- 发货设备iBMC版本为5.00以下,请按下列步骤操作。
- 在iBMC图形化界面,选择表1告警Trap报文通知设置完成相关操作后单击“保存”。 。参考
- 在“设置Trap服务器和报文格式”中,单击一行后面的编辑图标
设置Trap服务器和报文格式。具体参考表2设置Trap服务器和报文格式,完成相关操作后单击“保存”。
发货设备的iBMC版本不同时,iBMC管理界面的部分操作有一定的差异。请按如下步骤查询发货设备的iBMC版本信息。- 登录iBMC管理界面,详细步骤请参见如何通过iBMC IP地址远程登录服务器。
- 查看iBMC版本信息。
- iBMC版本为3.01.0.0及以上时,在iBMC主界面“设备信息”中,查看“iBMC固件版本”。
- iBMC版本为5.00及以上时,在iBMC主界面“设备信息”中,查看“iBMC版本”。
- iBMC版本为5.00以下时,在iBMC主界面“基本信息”中,查看“iBMC固件版本”。
后续处理
- 发货设备iBMC版本为5.00及以上,请按下列步骤操作。
- 请参见如何通过iBMC IP地址远程登录服务器登录服务器控制卡页面。
- 选择“Trap报文通知”页面。 ,单击进入
- 在“设置Trap服务器和报文格式”中,单击“当前状态”为“开启”行后面的“测试”。
如果提示“操作成功”,说明配置华为服务器硬件告警成功。
- 发货设备iBMC版本为5.00以下,请按下列步骤操作。
- 请参见如何通过iBMC IP地址远程登录服务器登录服务器控制卡页面。
- 选择“告警与事件 > 告警设置”,进入“告警设置”页面。
- 在“设置Trap服务器和报文格式”中,单击“当前状态”为“启用”行后面的“测试”。
如果提示“操作成功”,说明配置华为服务器硬件告警成功。
发货设备的iBMC版本不同时,iBMC管理界面的部分操作有一定的差异。请按如下步骤查询发货设备的iBMC版本信息。- 登录iBMC管理界面,详细步骤请参见如何通过iBMC IP地址远程登录服务器。
- 查看iBMC版本信息。
- iBMC版本为3.01.0.0及以上时,在iBMC主界面“设备信息”中,查看“iBMC固件版本”。
- iBMC版本为5.00及以上时,在iBMC主界面“设备信息”中,查看“iBMC版本”。
- iBMC版本为5.00以下时,在iBMC主界面“基本信息”中,查看“iBMC固件版本”。
修改FusionCompute告警转发参数
使用EasySuite安装iMaster NCE-Campus过程中,已完成FusionCompute用于发送告警的相关配置。若手工修改了服务器告警转发参数,需同步修改管理面中记录的接收参数。
操作步骤
- 在FusionCompute左侧导航中,单击
。进入“系统管理”页面。
- 选择“系统管理 > 第三方对接 > SNMP管理站”。 进入“SNMP管理站”页面。
- 参考表3-46配置FusionCompute告警转发参数,单击“保存”。表3-46 FusionCompute告警转发参数
任务
操作指导
管理站名称
配置为“FC_alarm”。
SNMP版本
选择为“SNMPv3”。
维护端口
配置为“30085”。
IP地址
配置成安装时设置的业务分发平面的集群内部浮动IP地址1。也可以在服务器上通过ifconfig eth1:1或者ifconfig bond1:1获取该地址。
安全用户名
配置为“FC_admin”。
认证协议
选择为“HMAC-SHA”。
认证密码
配置为FC_admin用户的认证密码。
确认认证密码
加密密码
配置为FC_admin用户的加密密码。
确认加密密码
超时时间
保持默认值。
加密协议
保持默认值。
配置FC_admin用户的认证密码和加密密码为不同值。
配置服务器告警接收参数(机架服务器)
使用EasySuite安装iMaster NCE-Campus过程中,已完成2288H V5/TaiShan服务器用于发送告警的相关配置。仅需再在管理面配置服务器告警接收参数,即可通过管理面接收硬件服务器告警并上报至业务面。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作须知
对于异地容灾场景,需在主站点上配置主站点的服务器告警接收参数,在备站点上配置备站点的服务器告警接收参数。
操作步骤
- 在管理面主菜单中选择“基础设施 > 硬件管理 > 设置服务器告警接收参数”。
- 在“设置服务器告警接收参数”页面,参考表3-47完成相关操作。表3-47 硬件服务器告警上报参数
参数名
参数说明
IP地址
iMana/iBMC IP地址
服务器类型
RH2288H V2/V3/V5/RH5885H V3/TaiShan 200 (Model 2280)/2288X V5
SNMP用户名
iMana/iBMC的告警上报用户
认证密码
SNMP协议认证密码,请输入告警上报用户的登录密码。
加密密码
SNMP协议加密密码,请输入告警上报用户SNMPv3协议的加密密码。
- 2288H V5/TaiShan/2288X V5告警节点默认使用Administrator用户作为告警上报用户,且使用Administrator用户登录密码作为认证密码及加密密码,若界面提示认证密码和加密密码相同存在安全风险,确认风险并继续操作即可。
- 建议2288H V5/TaiShan/2288X V5使用单独的SNMP用户用于告警上报。告警在上报时,管理面会通过该用户连接服务器,如果复用登录用户,在登录用户修改密码之后,可能会导致登录用户被锁定。如果需要新增一个告警上报用户,请参考如何新增告警上报用户(机架服务器)新增一个告警上报用户,并设置不同的认证密码和加密密码。
后续处理
若硬件服务器侧相关参数发生变化,请重新配置接收参数。
配置FusionCompute告警接收参数
使用EasySuite安装iMaster NCE-Campus过程中,已完成FusionCompute用于发送告警的相关配置。仅需再在管理面配置FusionCompute告警接收参数,即可通过管理面接收FusionCompute告警并上报至业务面。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作须知
对于异地容灾场景,需在主站点上配置主站点的FusionCompute告警接收参数,在备站点上配置备站点的FusionCompute告警接收参数。
操作步骤
- 在管理面主菜单中选择“基础设施 > 硬件管理 > 设置服务器告警接收参数”。
- 在“设置服务器告警接收参数”页面,参考表3-48完成相关操作。表3-48 FusionCompute告警接收参数
参数名
参数说明
IP地址
VRM浮动IP地址。
服务器类型
选择为“FusionCompute”。
SNMP用户名
配置为“FC_admin”。需要和修改FusionCompute告警转发参数中设置的“安全用户名”保持一致。
认证密码
SNMP协议认证密码,请输入FC_admin用户的认证密码。密码请参见虚拟化层用户列表。
加密密码
SNMP协议加密密码,请输入FC_admin用户的加密密码。密码请参见虚拟化层用户列表。
- 手工清除FusionCompute中的所有告警。
- 登录FusionCompute,具体操作请参见如何登录FusionCompute。
- 在FusionCompute左侧导航中,单击
,进入“监控”页面,选择“监控 > 告警 > 告警列表” ,进入“实时告警”页面。
- 检查是否存在告警,如果存在告警,依次单击对应告警的“清除”,手工清除所有告警。
后续处理
若FusionCompute侧相关参数发生变化,请重新配置接收参数。
软件管理
本章节介绍产品软件的相关操作,包括软件包管理,第三方补丁管理及产品软件的安装、升级、扩容、卸载功能。
管理软件包
您可以通过该功能上传安装、升级产品软件或管理第三方补丁时所需要的软件包,也可以在磁盘空间不足时通过该功能删除多余的软件包。
前提条件
- 确保PC和管理节点能正常通信。
- 上传软件包:
- 已获取待上传的软件包及签名文件。
- 已获取管理节点的sopuser和ossadm用户的密码。
- 删除软件包:
待删除的软件包处于非执行状态。
操作须知
- 待上传的软件包需满足以下条件,否则将导致上传失败:
- 软件包名称只能包含字母、数字、下划线、中划线和点,且长度不能超过128个字符。
- 软件包的扩展名为.zip、.7z、.gz时,需要同时上传签名文件,签名文件支持.asc、.cms和.crl格式。
- 软件包的扩展名为.tar时,由于软件包中已包含对应的签名文件,所以不需要再同时上传签名文件。
- 如果软件包小于6GB,签名文件小于2MB,且本地PC和管理节点之间的网络带宽大于或等于100Mbit/s,可以通过管理面的软件管理功能上传软件包。否则,使用断点续传的方式上传。
- 扫描软件包过程中,请不要重启任何管理节点,防止扫描失败。
- 对于异地容灾场景,主站点和备站点需上传相同的软件包和签名文件。
操作步骤
任务 |
操作指导 |
---|---|
通过断点续传方式上传软件包到管理节点(推荐) |
|
通过管理面的软件管理功能上传 |
|
删除软件包 |
|
升级产品软件
产品软件升级安装包上传到管理面后,可以通过该功能对相应的产品进行升级操作。iMaster NCE-Campus的升级场景和端到端操作过程指导,请参见版本配套的《增量部署指导书》,其中升级过程中调用管理面“产品 > 软件管理 > 部署产品软件”入口的“升级”能力。
修改产品软件配置参数
当您需要修改已安装的产品软件的配置参数时,可以通过该功能修改配置参数。
操作须知
该页面的参数属于安装部署时的过程参数,安装时已配置完成。除非资料详细描述了明确的修改场景和过程操作,否则请不要修改。
操作步骤
- 在管理面主菜单中选择 。
- 在“部署产品软件”页面,单击待修改配置参数的产品,进入产品详细页面。
- 在产品详细页面右上角单击“更多”,在下拉列表中选择“修改配置参数”,然后按照界面上的指引完成相关操作。
- 对于异地容灾场景,需重新建立主备站点产品间的容灾关系,具体操作请参见连接主备站点产品。
管理第三方软件补丁
第三方补丁包上传到管理面后,可通过该功能对节点进行第三方补丁升级或回退操作。
背景信息
支持的补丁类型:
EulerOS操作系统软件补丁
GaussDB 100数据库软件补丁
前提条件
操作须知
- 操作系统补丁管理
- 升级前,建议先备份节点的操作系统,如果升级失败,可利用备份文件恢复为正常状态。
- 请勿同时升级管理节点与产品节点,否则将导致升级失败。
- 升级过程中会对操作系统进行重启,在此期间操作系统将无法登录,业务将中断,建议在业务空闲期执行本节操作。
- 数据库补丁管理
- 升级前,建议备份数据库,如果升级失败,可利用备份文件恢复为正常状态。
- 升级过程中会重启所有数据库,业务将中断,建议在业务空闲期执行本节操作。
- 若管理节点和数据库节点为同一个节点且使用同一个数据库软件时,不支持升级数据库补丁。
判断管理节点和数据库节点是否为同一个节点且使用同一个数据库软件,具体操作请参见如何判断节点的部署模式和如何判断管理节点和产品节点是否使用同一个数据库软件。
操作步骤
- 在管理面主菜单中选择“产品 > 软件管理 > 管理第三方软件补丁”。
- 在“管理第三方软件补丁”页面,找到待升级的产品卡片,按照界面上的指引完成相关操作。
- 对于异地容灾场景,需连接主备站点产品,具体操作请参见连接主备站点产品。
选举服务管理
选举服务可以提供选举能力,为服务组提供一主一备或者一主多备的能力,实现服务主备切换,提升服务的可靠性。选举服务所管理的服务组,支持在管理面的选举服务中查看服务组的主备状态,并可以手工切换主备服务。
前提条件
已登录管理面,具体操作请参见登录管理面。
背景信息
- 一个服务组内的服务ID相同,节点ID和主备状态不同。
- 服务异常时,系统会自动进行服务主备切换,以保证业务连续性。如下两种场景需要手工切换服务的主备状态:
- 主服务所在节点的资源占用率过高,系统运行缓慢。
- 同一个服务组内的多个服务处于主状态。
操作步骤
- 在管理面主菜单中选择“系统 > 操作管理 > 选举服务”。
- 在“选举服务”页面,按照界面上的指引完成相关操作。主服务状态变为备,备服务状态变为主,表示服务切换主备状态成功。
运维管理
运维看板
运维看板主要展示当前iMaster NCE-Campus系统的系统评估、风险、业务健康状态汇总以及系统资源指标监控状态汇总情况,帮助运维人员及时了解系统运行过程中的健康状态,降低运行风险。若发生系统故障,运维人员可针对性地进行修复,减少损失。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作步骤
- 在iMaster NCE-Campus管理面主菜单中选择 。
- 在“运维看板”页面,监控系统的数据采取相应策略。类似如下截图。
- 系统评估:对当前系统运行情况综合评估的结果。
表3-50 系统评估
评估级别
代表颜色
说明
故障
表示当前系统存在紧急或重要级别的故障风险,需要及时处理,否则会有重要业务运行、业务中断或系统瘫痪的风险。
风险
表示当前系统中存在次要级别的故障风险,需要根据风险了解网络和网元的运行状态,查找风险原因,消除故障隐患
健康
表示当前系统中存在提示级别故障风险,或者无故障风险。
- 风险:系统自身或管理对象检测到故障而产生的通知。参见表3-51不同颜色表示不同的风险级别,不同风险级别表示故障的严重程度、重要性和紧迫性不同,帮助运维人员在大量风险中快速识别风险的重要程度。
- 业务健康状态汇总:用于统计最近1分钟的业务操作的成功率、业务操作总数以及业务操作平均耗时数据。
- 系统资源指标监控状态汇总:主要展现CPU使用率、内存使用率、I/O以及网卡流量的汇总信息。如下表格以CPU使用率为例说明。
表3-52 CPU使用率指标说明
级别
代表颜色
说明
Top1
红色
:每10秒监控1次所有节点占用的资源,并对各节点资源占用的百分比由高到低进行排序,显示出最近1小时内占用资源最高的比值形成的曲线图
Top2
橙色
:每10秒监控1次所有节点占用的资源,并对各节点资源占用的百分比由高到低进行排序,显示出最近1小时内占用资源排序第2的比值形成的曲线图 。
Top3
黄色
:每10秒监控1次所有节点占用的资源,并对各节点资源占用的百分比由高到低进行排序,显示出最近1小时内占用资源排序第3的比值形成的曲线图 。
Avg
绿色
:每10秒监控1次所有节点占用的资源,并计算出资源占用的百分比的平均值 ,显示出最近1小时内占用资源的平均比值形成曲线图。
若不选中Top1、Top2、Top3或Avg前面的单选按钮,其颜色为灰色则表示不显示对应级别的曲线。
例如:
表示显示Top1与平均值的结果,不显示Top2和Top3。
用户可单击曲线图形上某个节点IP,页面可跳转至“故障分析”页面。
- 系统评估:对当前系统运行情况综合评估的结果。
注意事项
- 为确保用户网络安全,使用该功能之前,应事先向客户主动提供该功能的说明,并向用户获取书面授权。
- 采集客户网络数据前,需向客户申请并获得客户书面授权。在采集过程中仅采集客户授权范围内的数据。
- 客户网络数据传出客户网络前,需向客户申请并获得客户书面授权,同时要遵从当地法律法规,转移的数据仅用于给客户提供服务。
统一监控
统一监控是对iMaster NCE-Campus系统的实时数据与历史数据进行监控,并进行多维度对比分析,为运维人员提供数据参考。
节点监控
对iMaster NCE-Campus节点中CPU、内存、网络丢包及时延、进程等的实时及历史状态进行监控,及时发现并解决异常状况,保障iMaster NCE-Campus节点的高效运行。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作步骤
- 在iMaster NCE-Campus管理面主菜单中选择 。
- 在左侧导航栏中选择“节点监控”,跳转到“节点监控”页面。
页面上以列表形式汇总展示所有监控节点的信息,包括主机名、节点IP、服务状态、CPU使用率和内存使用率。类似如下截图。
- 单击“主机名”下某个节点左边的
图标,页面以图表形式详细展示该节点的信息,包括基本信息、CPU与内存、I/O使用率、网卡吞吐量、时延与丢包和进程信息。通过查看这些信息,及时发现异常状况,保障iMaster NCE-Campus系统的高效运行。
服务监控
对iMaster NCE-Campus中服务所对应的CPU、内存、线程、句柄数等资源进行监控,可根据节点查服务以及服务查节点的资源占用情况,及时发现并解决异常状况,保障服务的正常运行。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作步骤
- 在iMaster NCE-Campus管理面主菜单中选择 。
- 在左侧导航栏中选择“服务监控”,跳转到“服务监控”页面。
页面上以“服务”和“服务监控项”两个模块对各节点的服务进行监控。
对服务的展示,将在各个节点使用到的相同服务汇总在一起集中展示。对服务监控项以图表形式展示,提供按节点选择服务和按服务选择节点。服务监控项包括CPU占用率、内存占用率、内存占用、文件句柄数、线程数、I/O、Java进程和队列监控。
- 按节点选择服务:可查询对应节点上某服务中各进程最近1小时、3小时或者7小时的监控项数据。
- 按服务选择节点:可查询对应服务在某节点中各进程最近1小时、3小时或者7小时的监控项数据。
数据库监控
关键中间件监控
iMaster NCE-Campus系统中使用较多的开源中间件,这些中间件的状态及指标缺少可视化的手段,监控Kafka与Etcd中间件,提升维护效率。
前提条件
已登录管理面,具体操作请参见登录管理面。
背景信息
- 当前iMaster NCE-Campus支持监控Kafka与Etcd中间件。
- Kafka是一个分布式消息中间件,MessagingBrokeService、DmqKafkaService和SMPMQService是独立的Kafka服务。
- Etcd是一个应用在分布式环境下的key/value存储服务。它包含一个简单的原语。
- MessagingBrokeService、DmqKafkaService、SMPMQService和etcdService的节点信息中IP地址若为红色表示异常,绿色表示正常,可刷新到最近10分钟监控的结果。
表3-55 Etcd监控指标说明
监控指标
说明
监控目的
WAL fsync duration
异步同步写磁盘的延迟
高磁盘操作延迟(WAL fsync duration or backend commitment) 一般情况下是磁盘故障问题,高延迟可能会导致etcd集群不可用。
Backend commitment
后台提交磁盘操作延迟
CreateSuccess
create成功数
查询或者刷新时对应的etcd采样期内的操作成功数与失败数。
CreateFail
create失败数
GetsSuccess
get成功数
GetsFail
get失败数
UpdateSuccess
update成功数
UpdateFail
update失败数
SetsSuccess
set成功数
SetsFail
set失败数
DeleteSuccess
delete成功数
DeleteFail
delete失败数
操作步骤
- 在iMaster NCE-Campus管理面主菜单中选择 。
- 在左侧导航栏中选择“关键中间件监控”,跳转到“关键中间件监控”页面。类似如下截图。按照界面指引完成相关操作。
业务KPI
提供对iMaster NCE-Campus对应产品业务关键指标的实时及历史值的监控,用以全面了解业务的健康状态,及时发现异常指标项,并判断业务系统是否存在运行风险。
前提条件
已登录管理面,具体操作请参见登录管理面。
操作步骤
- 在iMaster NCE-Campus管理面主菜单中选择 。
- 在左侧导航栏中选择“业务KPI”,跳转到“业务KPI”页面。
页面上以图形方式展示产品业务关键指标的实时及历史值的监控信息,产品不同监控的项不同。