部件更换
FusionInsight故障节点替换
替换数据节点
约束和注意
- 在FusionInsight和iMaster NCE-Campus共部署场景下,替换FusionInsight之前,请先完成iMaster NCE-Campus数据备份。
- 新节点操作系统、操作系统编码格式必须和故障节点一致。
- 新节点的磁盘名称、磁盘大小、操作系统分区名称、分区大小必须与故障节点保持一致。
- 新节点网卡名称、网卡个数、IP地址必须与故障节点一致。
- 新节点的Hostname必须与故障节点一致。
- 新节点的时区和时间必须与故障节点一致。
替换前检查
- 请在新节点配置“omm”用户启动定时任务权限。
- 若系统中只存在“/etc/cron.allow”文件,请将“omm”用户写入“/etc/cron.allow”文件。
- 若系统中只存在“/etc/cron.deny”文件,请将“omm”用户从“/etc/cron.deny”文件中删除。
- 若“/etc/cron.allow”和“/etc/cron.deny”文件均存在,请将“omm”用户写入“/etc/cron.allow”文件。
- 若存在“/etc/cron.deny”文件,且文件中无“omm”用户,则无需处理。
替换前准备
- 安装新节点,详细操作过程请参见《FusionInsight 产品文档》。
- 使用“root”用户登录新节点。
- (可选)扩容“/opt”磁盘空间,虚拟化场景下需要扩容“/opt”磁盘空间。
共部署场景下,此步骤为必选,在替换FusionInsight之前先进行“/opt”磁盘空间扩容。
- 虚拟机:
- 在“EasySuite安装目录\tools\osconfig\maintain_tools”路径获取脚本“disk_expand.sh”。
- 将“disk_expand.sh”上传到虚拟机的“/opt”目录。
- 以“root”用户登录操作系统,进入“/opt”目录执行如下命令扩容磁盘空间。
# cd /opt # bash disk_expand.sh
- 执行df -h命令查看“/opt”分区大小,验证扩容是否成功。
如果查看“/opt”分区大小已增加,表示扩容成功。
- 物理机:
- 在“EasySuite安装目录\tools\osconfig\maintain_tools”路径获取脚本“lvm.sh”。
- 将“lvm.sh”上传到物理机的“/opt”目录。
- 以“root”用户登录操作系统,进入“/opt”目录执行如下命令扩容磁盘空间。
# cd /opt # bash lvm.sh
- 执行df -h命令查看“/opt”分区大小,验证扩容是否成功。
如果查看“/opt”分区大小已增加,表示扩容成功。
- 虚拟机:
- 为新节点进行磁盘分区。
- 在新节点上执行如下命令创建“/opt/fi_tools”路径,将“/opt/fi_tools”文件夹权限修改为755。
mkdir -p /opt/fi_tools/ chmod 755 /opt/fi_tools
- 登录FusionInsight页面,单击“主机”,查看带“星号”的节点,使用命令行登录该节点。
- 使用“sopuser”用户登录集群主节点,切换到“root”用户,在/root/.ssh/known_hosts文件中删除新节点管理IP的host_key。
su - root vi /root/.ssh/known_hosts
使用vi /root/.ssh/known_hosts命令打开文件,在文件中删除新节点管理IP的host_key。
- 使用“sopuser”帐号登录集群主节点,切换到“root”用户,拷贝FusionInsight主管理节点“/opt/fi_tools”文件夹下的所有文件至新节点的“/opt/fi_tools”,拷贝“/opt”目录下的“fi_install”文件夹到新节点的“/opt”目录下,IP地址为新节点的IP地址。
su - root cd /opt/fi_tools scp ./* root@192.168.57.70:/opt/fi_tools scp -r /opt/fi_install root@192.168.57.70:/opt/
- 命令执行完成后,登录新节点,执行如下命令,确认路径拷贝成功。
cd /opt/fi_tools && ll
- 拷贝成功后,使用“root”帐号登录新节点,执行分区脚本。
cd /opt/fi_tools/ && sh create_vol.sh "/dev/xxx"
其中xxx表示为FusionInsight配置的大于1.8T的数据盘,如vdb。数据盘必须是要一块儿新盘,且不能做分区。
- 执行df -h命令查看,确认分区成功,查看结果如果存在下图红框中5个分区,说明分区成功。
- 在新节点上执行如下命令创建“/opt/fi_tools”路径,将“/opt/fi_tools”文件夹权限修改为755。
- 检查新节点。
检查主机名并配置主机名对应关系。
使用“root”帐号登录新节点,在“/etc/hosts”文件中增加FusionInsight集群中所有节点(包括新节点)业务IP与主机名的对应关系。
可以参考非故障节点“/etc/hosts”文件查看主机名和业务IP对应关系。
配置完成后,输入hostname -i命令,回显为业务分发平面IP表示配置成功。
- 登录新节点,执行如下命令执行preset。
cd /opt/fi_tools/ tar -zxvf FusionInsight_SetupTool_x.x.x.tar.gz //x.x.x表示FusionInsight的版本号。 cd /opt/fi_tools/FusionInsight_SetupTool/preset/ sh preset.sh
出现如下回显信息即表示执行成功。
- 重启SSH服务。
sed -i '/ssh_host_ecdsa_key/s/^/#&/' /etc/ssh/sshd_config && service sshd restart
重装FusionInsight数据节点
- 登录FusionInsight Manager界面,进入 页面,选中新节点,单击 ,安装FusionInsight数据节点。重装数据节点需要30分钟,请耐心等待。
如果重装过程中启动服务失败,可尝试手动重启集群。
- 界面提示操作成功,单击“完成”。
- (可选)登录节点后台,执行以下命令。
V100R19C10SP203之前版本需要执行如下命令,V100R19C10SP203及之后版本已通过补丁解决,无需执行。
sed -i 's/SPARK_HISTORY_OPTS -Djava/SPARK_HISTORY_OPTS -Djava.io.tmpdir=\/opt\/huawei\/Bigdata\/tmp\/spark2x -Djava/g' /opt/huawei/Bigdata/FusionInsight_Spark2x_6.5.1/1_11_JobHistory2x/etc/spark-env.sh
替换管理节点
约束和注意
- 在FusionInsight和iMaster NCE-Campus共部署场景下,替换FusionInsight之前,请先完成iMaster NCE-Campus数据备份。
- 新节点操作系统、操作系统编码格式必须和故障节点一致。
- 新节点的磁盘名称、磁盘大小、操作系统分区名称、分区大小必须与故障节点保持一致。
- 新节点网卡名称、网卡个数、IP地址必须与故障节点一致。
- 新节点的Hostname必须与故障节点一致。
- 新节点的时区和时间必须与故障节点一致。
替换前检查
- 请在新节点配置“omm”用户启动定时任务权限。
- 若系统中只存在“/etc/cron.allow”文件,请将“omm”用户写入“/etc/cron.allow”文件。
- 若系统中只存在“/etc/cron.deny”文件,请将“omm”用户从“/etc/cron.deny”文件中删除。
- 若“/etc/cron.allow”和“/etc/cron.deny”文件均存在,请将“omm”用户写入“/etc/cron.allow”文件。
- 若存在“/etc/cron.deny”文件,且文件中无“omm”用户,则无需处理。
替换前准备
- 安装新节点,详细操作过程请参见《FusionInsight 产品文档》。
- 使用“root”用户登录新节点。
- (可选)扩容“/opt”磁盘空间,虚拟化场景下需要扩容“/opt”磁盘空间。
共部署场景下,此步骤为必选,在替换FusionInsight之前先进行“/opt”磁盘空间扩容。
- 虚拟机:
- 在“EasySuite安装目录\tools\osconfig\maintain_tools”路径获取脚本“disk_expand.sh”。
- 将“disk_expand.sh”上传到虚拟机的“/opt”目录。
- 以“root”用户登录操作系统,进入“/opt”目录执行如下命令扩容磁盘空间。
# cd /opt # bash disk_expand.sh
- 执行df -h命令查看“/opt”分区大小,验证扩容是否成功。
如果查看“/opt”分区大小已增加,表示扩容成功。
- 物理机:
- 在“EasySuite安装目录\tools\osconfig\maintain_tools”路径获取脚本“lvm.sh”。
- 将“lvm.sh”上传到物理机的“/opt”目录。
- 以“root”用户登录操作系统,进入“/opt”目录执行如下命令扩容磁盘空间。
# cd /opt # bash lvm.sh
- 执行df -h命令查看“/opt”分区大小,验证扩容是否成功。
如果查看“/opt”分区大小已增加,表示扩容成功。
- 虚拟机:
- 为新节点进行磁盘分区。
- 在新节点上执行如下命令创建“/opt/fi_tools”路径,将“/opt/fi_tools”文件夹权限修改为755。
mkdir -p /opt/fi_tools/ chmod 755 /opt/fi_tools
- 登录FusionInsight页面,单击“主机”,查看带“星号”的节点,使用命令行登录该节点。
- 使用“sopuser”用户登录集群主节点,切换到“root”用户,在/root/.ssh/known_hosts文件中删除新节点管理IP的host_key。
su - root vi /root/.ssh/known_hosts
使用vi /root/.ssh/known_hosts命令打开文件,在文件中删除新节点管理IP的host_key。
- 使用“sopuser”帐号登录集群主节点,切换到“root”用户,拷贝FusionInsight主管理节点“/opt/fi_tools”文件夹下的所有文件至新节点的“/opt/fi_tools”,拷贝“/opt”目录下的“fi_install”文件夹到新节点的“/opt”目录下,IP地址为新节点的IP地址。
su - root cd /opt/fi_tools scp ./* root@192.168.57.70:/opt/fi_tools scp -r /opt/fi_install root@192.168.57.70:/opt/
- 命令执行完成后,登录新节点,执行如下命令,确认路径拷贝成功。
cd /opt/fi_tools && ll
- 拷贝成功后,使用“root”帐号登录新节点,执行分区脚本。
cd /opt/fi_tools/ && sh create_vol.sh "/dev/xxx"
其中xxx表示为FusionInsight配置的大于1.8T的数据盘,如vdb。数据盘必须是要一块儿新盘,且不能做分区。
- 执行df -h命令查看,确认分区成功,查看结果如果存在下图红框中5个分区,说明分区成功。
- 在新节点上执行如下命令创建“/opt/fi_tools”路径,将“/opt/fi_tools”文件夹权限修改为755。
- 检查新节点。
检查主机名并配置主机名对应关系。
使用“root”帐号登录新节点,在“/etc/hosts”文件中增加FusionInsight集群中所有节点(包括新节点)业务IP与主机名的对应关系。
可以参考非故障节点“/etc/hosts”文件查看主机名和业务IP对应关系。
配置完成后,输入hostname -i命令,回显为业务分发平面IP表示配置成功。
- 登录新节点,执行如下命令执行preset。
cd /opt/fi_tools/ tar -zxvf FusionInsight_SetupTool_x.x.x.tar.gz //x.x.x表示FusionInsight的版本号。 cd /opt/fi_tools/FusionInsight_SetupTool/preset/ sh preset.sh
出现如下回显信息即表示执行成功。
- 重启SSH服务。
sed -i '/ssh_host_ecdsa_key/s/^/#&/' /etc/ssh/sshd_config && service sshd restart
重装FusionInsight Manager
- 使用“sopuser”用户登录另外一个未发生故障的管理节点,切换到“root”用户。
su - root
- 执行如下操作。
vi /root/.ssh/known_hosts
在文件中删除新节点管理IP的host_key。
vi /opt/huawei/Bigdata/om-server/om/etc/om/known_hosts
在文件中删除未发生故障节点管理IP的host_key。
- 重启controller服务。
su - omm -c "sh /opt/huawei/Bigdata/om-server/om/sbin/restart-controller.sh"
- 进入“/opt/fi_install/FusionInsight_Manager/”目录,将此目录拷贝至新节点上。
cd /opt/fi_install/FusionInsight_Manager/ scp -r /opt/fi_install/FusionInsight_Manager/ root@192.168.103.213:/opt/fi_tools
拷贝完成之后,请将新节点的“/opt/fi_tools/FusionInsight_Manager”文件夹和里边文件权限修改为755。
chmod -R 755 /opt/fi_tools/FusionInsight_Manager
- 使用“root”用户登录新节点,进入“/opt/fi_tools/FusionInsight_Manager/software”目录,根据集群信息修改“install.ini”文件内容。
- 将local_ip1修改为待替换节点IP地址。
- 将peer_ip1修改为另一管理节点IP地址。
如果FusionInsight配置了外部NTP服务器,请在“install.ini”配置ntp_server_ip为外部NTP服务器IP地址,如果FusionInsight未配置外部NTP服务器,则无需配置ntp_server_ip。
cd /opt/fi_tools/FusionInsight_Manager/software vi install.ini
- 登录新节点,先执行preset操作,再执行安装命令安装FusionInsight Manager。
sh /opt/fi_tools/FusionInsight_SetupTool/preset/preset.sh cd /opt/fi_tools/FusionInsight_Manager/software/ sh install.sh -f install.ini
连续输入两次“y”。
如果出现提示信息failed to cofig and start nodeagent。切换“omm”帐号执行如下命令重启动nodeagent,如果出现回显信息The node agent is running,则说明已安装成功,否则表示安装失败。su - omm sh /opt/huawei/Bigdata/om-agent/nodeagent/bin/stop-agent.sh sh /opt/huawei/Bigdata/om-agent/nodeagent/bin/start-agent.sh sh /opt/huawei/Bigdata/om-agent/nodeagent/bin/status-agent.sh | grep 'The node agent is running'
- 以“omm”帐号分别登录主管理节点及新节点,执行ls -l $BIGDATA_HOME/common查看runtime软链接的指向是否一致。
获取omm用户和ommdba用户信息及初始密码,请参考《FusionInsight 产品文档》。
以“root”帐号登录新替换节点,进入切换工作区工具脚本所在路径。 执行切换工作区工具脚本,切换到目标工作区(主管理节点runtime软链接所指向的工作区,runtime0或者runtime1)cd /opt/fi_tools/FusionInsight_Manager/software/om/script/ ./switchCommonWorkspace.sh 目标工作区
- 以“omm”帐号登录新节点执行如下两条命令,删除默认的用户数据,准备同步系统中主节点ldap的数据。
rm -f ${BIGDATA_DATA_HOME}/ldapData/oldap/data/* cp ${CONTROLLER_HOME}/ldapserver/ldapserver/local/conf/DB_CONFIG ${BIGDATA_DATA_HOME}/ldapData/oldap/data/
- 使用“omm”用户登录更换后的新节点,查找oldap的进程PID,并结束该进程,让系统自动重启该进程。
ps -ef |grep ldap |grep om-server kill -2 PID
- 使用“omm”用户登录更换后的新节点,查找kerberos的krb5kdc和kadmind进程PID,并结束这两个进程,让系统自动重启这两个进程。
若进程不存在,则说明已经处于重启过程中,可以忽略本操作步骤。
ps -ef | grep krb5kdc | grep om-server kill -9 PID ps -ef | grep kadmind | grep om-server kill -9 PID
- 使用“omm”帐号登录主管理节点,执行以下命令查看主备节点的gaussDB资源状态,若资源不正常,等待1~3分钟。
sh ${CONTROLLER_HOME}/sbin/status-oms.sh
- 更换备管理节点前,数据库密码与默认密码不一致,需执行以下操作。
以“omm”帐号登录备管理节点,执行以下命令停止管理节点。
bash ${BIGDATA_HOME}/om-server/om/sbin/stop-oms.sh
- 以“omm”帐号登录备管理节点,切换到“root”帐号,再切换到“ommdba”帐号,执行以下命令同步主备数据库数据:
su - root su - ommdba gs_ctl build
执行成功后界面回显:
ommdba@192-168-64-154:~> gs_ctl build waiting for server to shut down.... done server stopped gs_ctl: connect to server, build started. xlog start point: 1/49000020 gs_ctl: starting background WAL receiver 1525133/1525133 kB (100%), 1/1 tablespace xlog end point: 1/4906B908 gs_ctl: waiting for background process to finish streaming... gs_ctl: build completed. server starting.... done server started
- 以“omm”帐号登录备管理节点,执行以下命令启动管理节点。
bash ${BIGDATA_HOME}/om-server/om/sbin/start-oms.sh
- 以“omm”帐号登录主管理节点,切换到“root”帐号,再切换到“ommdba”帐号使,查看主备管理节点是否完成数据同步。
su - root su - ommdba gs_ctl query -P OMS数据库管理员用户密码
您可以在《iMaster NCE-Campus缺省帐号与密码》(企业网、运营商)文档中获取各种缺省帐号与密码信息。获取该文档需要权限,如需升级权限,请查看网站帮助。
若“SYNC_PERCENT”为“99%”或“100%”,则同步完成。
- 同步主备管理节点的文件。以“omm”帐号登录主管理节点,执行以下命令查看主备管理节点是否完成文件同步。
cd ${OMS_RUN_PATH}/workspace0/ha/module/hacom/tools ./ha_client_tool --syncallfile ./ha_client_tool --getsyncfilestatus
出现如下信息表示文件同步成功。
- 添加禁止主备倒换的操作。
操作方法,以下操作以当前版本为例,其他版本路径可能稍有区别,操作时请注意。
- 使用omm用户登录到主OMS的节点,执行如下命令,创建forbid.txt文件。
touch ${OMS_RUN_PATH}/workspace0/ha/local/haarb/conf/forbid.txt
向forbid.txt文件中写入数据。
第一行写入当前时间:
echo $(date +%s) > ${OMS_RUN_PATH}/workspace0/ha/local/haarb/conf/forbid.txt
第二行写入72000:
echo 72000 >> ${OMS_RUN_PATH}/workspace0/ha/local/haarb/conf/forbid.txt
重启HA进程,让HA进程加载此forbid.txt文件。
停止并重启HA进程。
sh ${OMS_RUN_PATH}/workspace0/ha/module/hacom/script/stop_ha.sh sh ${OMS_RUN_PATH}/workspace0/ha/module/hacom/script/config_ha.sh -j active sh ${OMS_RUN_PATH}/workspace0/ha/module/hacom/script/start_ha.sh
等待约2~3分钟,HA进程重新启动完成。
- (可选)使用“omm”用户登录FusionInsight主节点检查补丁包及校验文件是否存在。
- ARM:请到“/opt/huawei/Bigdata/packaged-distributables/patch/redhat-aarch64”路径下检查,如果不存在补丁包及校验文件,请从“/opt/huawei/Bigdata/packaged-distributables/patch/aarch64”路径下拷贝过来。
- X86:请到“/opt/huawei/Bigdata/packaged-distributables/patch/redhat-x86_64” 路径下检查,如果不存在补丁包及校验文件,请从“/opt/huawei/Bigdata/packaged-distributables/patch/x86_64”路径下拷贝过来。
- 重装主机。
登录FusionInsight Manager,点击
。选择故障主机,选择“更多 > 重装”。
如果重装过程中启动服务失败,可尝试手动重启集群。
- 使用“omm”帐号登录更换后的新节点,执行如下命令,删除默认的用户数据,准备同步系统中主节点ldap的数据。
rm -rf ${BIGDATA_DATA_HOME}/ldapData/oldap/data/* cp ${BIGDATA_HOME}/om-server/om/ldapserver/ldapserver/local/conf/DB_CONFIG ${BIGDATA_DATA_HOME}/ldapData/oldap/data
- 执行如下命令,查看新节点上的密文为是否为短密文。
vi ${CONTROLLER_HOME}/ldapserver/ldapserver/local/cert/password.property
- 短密文样例:
password=90E173DD8BB8939CBF672548418D6B4F
- 长密文样例:
password=d2NjX2NyeXB0ATQxNDU1MzVGNDM0MjQzOzMyMzQ0MjQ0Mzg0MTM4MzEzNTQxMzUzNzQxMzAzMjMxMzMzNzM5NDM0MTM0Mzk0N
jM3MzQ0NDQzNDEzMTM5Mzg7OzMyMzUzMDMwOzg3NUY4RjRBMDk5QzUwOTdFOTlCMTJCMTM4OTQxNTUxOzdCNFBNzVFNThBM0IwNjA7MzY
zODM3MzgzODY0NjYzOTJENjU2NDY0NjUyRDM0MzkzMzY2MkQzOTMwNjMzODJEMzAzODY2MzUzMDYxMzY2NDM2MzUzNTMwOw
如果是短密文,执行下列命令删除新节点的password.changed文件。如果是长密文,则无需处理。
rm -f ${CONTROLLER_HOME}/security/cert/subcert/certFile/password.changed rm -f ${CONTROLLER_HOME}/ldapserver/ldapserver/local/cert/password.changed
- 短密文样例:
- 查询oldap的进程PID,结束找到的oldap进程,让系统自动重新启动该进程。
ps -ef |grep ldap |grep om-server_6.5.1/om kill -2 PID
- 用户登录更换后的新节点,查找kerberos的krb5kdc和kadmind进程PID,并结束这两个进程,让系统自动重启这两个进程。
若进程不存在,则说明已经处于重启过程中,可以忽略本操作步骤。
ps -ef | grep kerberos_user_specific_binay/kerberos/sbin/krb5kdc | grep -v grep kill -9 PID ps -ef | grep kerberos_user_specific_binay/kerberos/sbin/kadmin | grep -v grep kill -9 PID
- 使用“omm”帐号登录主管理节点,取消禁止管理节点双机主备倒换。
cd ${OMS_RUN_PATH}/workspace/ha/module/hacom/tools/ ./ha_client_tool --cancelforbidswitch --name=product
验证替换结果
- 登录FusionInsight Manager,如果登录成功,并且页面正常显示信息则证明管理节点运行正常。
- 单击“主机”,在主机列表中查看新添加的主机是否状态为“良好”,CPU、内存和磁盘信息是否正确。
- 单击“集群”,查看“主机”与“服务”页面下新节点的实例状态和相应的服务状态是否正常。
- 如果是主备双机,单击 查看是否存在“ALM-12010 Manager主备节点间心跳中断”的告警,如果不存在该告警则证明主备通信正常。
- 以“omm”帐号登录主管理节点,执行以下脚本查看主备节点的ResHAStatus资源状态,均为Normal状态表示正常。
sh ${BIGDATA_HOME}/om-server/om/sbin/status-oms.sh
- 主备数据同步完毕,可以正常访问,进行主备倒换等。管理节点更换后几分钟(视系统需要同步的数据库量而定),备节点数据库状态可能为“reparing”状态,正在进行数据同步,同步完成后恢复为“Standby_normal”状态。
iMaster NCE-Campus故障节点替换
背景信息
当iMaster NCE-Campus集群中节点出现故障,可以对集群中的故障节点进行替换。
约束和注意
- 节点替换过程请确保电源和网络稳定,避免断电断网。
- 节点替换过程中保持网络畅通。
- 新节点操作系统、操作系统编码格式必须和故障节点一致。
- 新节点的磁盘名称、磁盘大小、操作系统分区名称、分区大小必须与故障节点保持一致。
- 新节点网卡名称、网卡个数必须与故障节点一致。
- 替换节点的IP地址和Hostname要和故障节点保持一致。
- 节点替换所需的依赖文件“*.ICMR.zip”,必须与故障集群节点安装时使用的一致。
- 支持单节点故障替换,如果多个节点同时故障,不支持替换。
- 新节点的时区和时间必须与故障节点一致。
- 在iMaster NCE-Campus和FusionInsight共部署的场景下,必须先替换FusionInsight节点,再替换iMaster NCE-Campus节点。
- 备份数据前,请检查备份服务器磁盘空间,预留备份空间500G以上。
- 至少保证一个节点的管理面和数据库服务正常运行。
- 所有业务都不可以在本地存放动态可修改的配置和数据。
- 当前不支持多个故障节点同时恢复。
- 不支持在从机上执行重装脚本,必须在管理节点上执行重装脚本,推荐优先使用主管理节点。
- 请提前获取所有非“root”用户的密码,故障节点修复完后,需要将非“root”用户密码修改和其他点一致。
- 异地容灾场景进行节点替换时,需要先解除主备集群异地容灾关系,详细操作过程请参见分离主备站点产品。节点替换完成之后,再恢复主备集群的容灾关系,详细操作过程请参见连接主备站点产品。
- 异地容灾场景,节点替换完成之后,需要重新配置集群互信。
前置任务
已配置好备份服务器,并能够和集群节点互通。
处理步骤
- 安装新节点。
- 配置2288H V5或Taishan 2280 RAID。
- 虚拟机:详细操作过程请参见《软件安装》中的“安装iMaster NCE-Campus(OS+产品,2288H V5,FusionCompute)”或“安装iMaster NCE-Campus(OS+产品,Taishan,FusionCompute)”。
- 物理机:详细操作过程请参见《软件安装》中的“安装iMaster NCE-Campus(手动安装OS,2288H V5,物理机)”或“安装iMaster NCE-Campus(手动安装OS,Taishan,物理机)”。
- 安装新节点操作系统。
- 虚拟机:详细操作过程请参见《软件安装》中的“安装iMaster NCE-Campus(OS+产品,2288H V5,FusionCompute)”或“安装iMaster NCE-Campus(OS+产品,Taishan ,FusionCompute)”。
- 物理机:详细操作过程请参见《软件安装》中的“安装iMaster NCE-Campus(手动安装OS,2288H V5,物理机)”或“安装iMaster NCE-Campus(手动安装OS,Taishan ,物理机)”。
- 新节点操作系统、操作系统编码格式必须和故障节点一致。
- 新节点的磁盘名称、磁盘大小、操作系统分区名称、分区大小必须与故障节点保持一致。
- (可选)扩容“/opt”磁盘空间,虚拟化场景下需要扩容“/opt”磁盘空间。
共部署场景下,此步骤为必选,在替换FusionInsight之前先进行“/opt”磁盘空间扩容。
- 扩容虚拟机“/opt”磁盘空间:
- 在“EasySuite安装目录\tools\osconfig\maintain_tools”路径获取脚本“disk_expand.sh”。
- 将“disk_expand.sh”上传到虚拟机的“/opt”目录。
- 以“root”用户登录操作系统,进入“/opt”目录执行如下命令扩容磁盘空间。
# cd /opt # bash disk_expand.sh
- 执行df -h命令查看“/opt”分区大小,验证扩容是否成功。
如果查看“/opt”分区大小已增加,表示扩容成功。
- 扩容物理机“/opt”磁盘空间:
- 在“EasySuite安装目录\tools\osconfig\maintain_tools”路径获取脚本“lvm.sh”。
- 将“lvm.sh”上传到物理机的“/opt”目录。
- 以“root”用户登录操作系统,进入“/opt”目录执行如下命令扩容磁盘空间。
# cd /opt # bash lvm.sh
- 执行df -h命令查看“/opt”分区大小,验证扩容是否成功。
如果查看“/opt”分区大小已增加,表示扩容成功。
- 扩容虚拟机“/opt”磁盘空间:
- 新节点操作系统安装完成之后,请配置网络信息。
- 新节点网卡名称、网卡个数必须与故障节点一致。
- 替换节点的IP地址和Hostname要和故障节点保持一致。
- 配置2288H V5或Taishan 2280 RAID。
- 节点恢复。
- 预处理。
- (可选)使用“root”用户登录新节点,安装依赖包。
如果自行准备服务器,需要为服务器安装依赖包,详细安装过程请参见《软件安装》中的“安装iMaster NCE-Campus(仅产品,虚拟机)”。
- 从iMaster NCE-Campus安装包里获取“NCEV100R019C10_ICMR_linux_x64.zip” 或“NCEV100R019C10_ICMR_linux_arm.zip”文件,上传到新节点的“/opt”文件夹。
- (可选)使用“root”用户登录新节点,安装依赖包。
- 使用“sopuser”用户登录非故障的管理节点,切换到“ossadm”用户。
- 执行以下命令,切换路径。
su ossadm cd /opt/tools/recoverNode/
- 执行以下命令,执行故障节点重装脚本。
bash oneButtonRepairNode.sh
- 输入新节点的内部通信IP地址。
2019-10-26 20:31:59| Please enter the fault node manageIP
- 输入新节点的“root”用户密码。
Please enter the 192.168.62.82 root password :
- 出现如下提示信息,表示新点已经重装成功。
20:33 || INFO || Repair node 192.168.62.82 successfully
- 修改非“root”用户的密码 。
用户密码必须和原故障节点密码保持一致。
根据提示信息输入新密码,按‘q’或‘Q’退出当前用户密码的修改,进行下一个用户密码的修改。
- 执行以下命令,切换路径。
- (可选)使用“root”帐号登录新节点,执行以下命令,修改参数重启NTP服务。
首先执行cat /usr/lib/systemd/system/ntpd.service |grep -v "^#"|grep "ntp:ntp"命令,如果查询结果为空,则需要执行如下命令,如果查询结果不为空,则无需执行以下命令。
sed -i 's/log -f/log -u ntp:ntp -f/g' /etc/sysconfig/ntpd service ntpd restart
- 使用“root”帐号登录新节点,创建 文件夹,设置文件夹权限为755,修改文件夹管理员和属组。
mkdir -p /var/share-disk chmod 755 /var/share-disk chown -R ossadm:ossgroup /var/share-disk
- 登录任一正常节点,查看ethx:on的IP地址,使用https://ethx:on:18102登录管理面。
- 检查恢复状态。等待1分钟左右,登录管理面,主菜单中选择
如果有服务未运行,选择异常节点,单击“启动”按钮,等待几分钟后,待任务执行完成,如果系统还是有故障,请联系技术支持工程师。
,查看服务状态,如果所有状态都为绿色,表示替换成功。
- 预处理。
- 使用“sopuser”用户登录非故障OMP_01或OMP_02节点,切换到“root”用户,执行如下命令。
su root scp -r /opt/sudobin/campus/manager sopuser@故障节点IP:/tmp scp -r /etc/crontab sopuser@故障节点IP:/tmp
使用“sopuser”用户登录故障节点,切换到“root”用户,执行如下命令。
su root mv /tmp/manager /opt/sudobin/campus/ mv /tmp/crontab /etc chown -R root:root /opt/sudobin/campus/manager chown -R root:root /etc/crontab service cron reload swapoff -a sed -i 's,^[^#].*swap,#&,g' /etc/fstab
- 进行安全加固,根据用户需要,选择对节点进行安全加固。使用“root”用户方式登录新节点,执行如下命令进行安全加固。
# cd /opt/SEK # bash RunSEK.sh
iMaster NCE-Campus异地容灾环境故障节点替换
背景信息
异地容灾场景故障节点替换时,需要首先解除iMaster NCE-Campus主备集群的容灾关系,然后对节点进行替换,替换完成之后再重新组建容灾环境。
操作步骤
- 解除主备集群异地容灾关系,详细操作过程请参见分离主备站点产品。
- 对故障节点进行替换,详细操作过程参见iMaster NCE-Campus故障节点替换。
异地容灾场景,节点替换完成之后,需要重新配置集群互信。
- 恢复主备集群的容灾关系,详细操作过程请参见连接主备站点产品。