管理域节点异常
本节介绍除OM-Core01,OM-Core02,OM-Core03节点外的所有管理域节点异常恢复的操作。
异常处理
前提条件
- FusionStage环境OM-Core01,OM-Core02,OM-Core03中其中一个节点机器已重建,其余两台正常,集群正常工作,重建操作请参见IaaS层相关指导文档。
- 重建的OM-Core节点IP及VIP保持不变。
- 重建的OM-Core节点的规格与原节点保持一致。
删除故障节点
操作步骤
- 以paas用户登录OM-Core01节点。
- 更新虚拟机配置。
cd /opt/paas/bootstrap/bin
./fsadm addvm CorebaseHA -m base -f ../knowledge/fusionstage_CorebaseHA.yaml
- 删除故障节点。
- 查询故障节点,记录节点名称,即NAME列。
kubectl get no --all-namespaces
- 导出故障节点信息至文件中。
kubectl get no manage-cluster3-4f5b4eaa-4vsjv -n manage -oyaml > /tmp/manage-cluster3.yaml
- manage-cluster3-4f5b4eaa-4vsjv:为3.a中查询的故障节点的名称。
- manage-cluster3.yaml:故障节点信息文件,名称由用户自定义,建议与故障节点名称前半部分一致。
- 删除故障节点。
租户管理域执行如下命令删除:
kubectl delete no <节点名称> -n manage --grace-period=0 --force
运维管理域执行如下命令删除:
kubectl delete no <节点名称> -n om --grace-period=0 --force
说明:
租户管理域,命令中使用“manage”;运维管理域,命令中使用“om”。
- 查询故障节点,记录节点名称,即NAME列。
安装管理域虚拟机
前提条件
异常虚拟机已重建,并且虚拟机的IP、镜像、硬盘、操作系统与原虚拟机一致。
操作步骤
- 使用PuTTY,登录om_core1_ip节点。
默认帐号:paas,默认密码:QAZ2wsx@123!
- 执行以下命令切换到root用户。
su - root
paasword: root用户密码
- 首先查看/home/paas/create_vol_tool/、/var/log/tools/create_vol/或/tmp目录下是否有结尾为.flag或create_vol.log的挂卷日志文件,如果有就删除,没有就跳过,然后切换到paas用户,重新对重建虚拟机挂载磁盘,挂载操作请参考《安装指南》中“安装前准备>挂载磁盘”章节。
- 重新纳管节点。
- 检查重建节点状态。
- 查询重建节点纳管状态。
kubectl get no --all-namespaces
可查询出节点状态如下:unknown、notready和ready。
- 以paas用户登录重建节点,查询节点服务运行状态。
monit summary
- 如果所有服务均为Running状态,说明纳管节点成功。
- 如果出现服务一直是故障状态,可以使用monit restart {Service Name}命令进行服务重启。
{Service Name}为查询到的故障服务名称。
- 查询重建节点纳管状态。
- (可选)恢复cfe-etcd。
查看manage-cluster3.yaml中label信息,如果含有manage.etcd:etcd,请参考CFE-ETCD故障恢复章节恢复cfe-etcd,否则跳过此步骤。
- (可选)恢复mysql。
查看manage-cluster3.yaml中label信息,如果含有manage.mysql:mysql,请参考DBM数据库故障恢复恢复mysql,否则跳过此步骤。
- 检查重建节点上的pod状态。
kubectl get pods -n manage -o wide | grep <节点名称>
如果状态全为Running,表示节点修复成功。
说明:
- 以上仅以租户管理域节点的异常修复操作为例,运维管理域节点异常修复请将命令中“manage”字段替换为“om”即可。
- 如果存在异常pod、状态非Running的实例,可通过删除pod尝试再次拉起。
例如管理域节点的ICAgent pod状态异常,可通过命令kubectl delete pod name -n om --grace-period=0 --force删除该pod。name为查询到的异常pod名称,即NAME列字段。
- 如果需要修改重建节点的主机名,可通过执行以下步骤完成修改。
- 以paas用户登录重建节点,切换到root用户,然后执行以下命令临时修改主机名。
hostname {新主机名}
- 同时执行以下命令,修改配置文件使主机名永久生效。
echo '{新主机名}' > /etc/hostname
- 以paas用户登录重建节点后即会生效。
- 以paas用户登录重建节点,切换到root用户,然后执行以下命令临时修改主机名。