异地容灾
异地容灾系统简介
异地容灾系统由两套iMaster NCE-Campus组成,两套iMaster NCE-Campus分别部署在两个异地站点上。异地容灾系统正常运行时,对外提供服务的站点实时向对端站点同步数据,确保两站点间的数据一致。当对外提供服务的站点出现故障时,可由另一个站点快速接管故障站点的业务,保持业务连续性,减少损失。
iMaster NCE-Campus的异地容灾系统具有如下优势:
- 简单易用:界面一键式操作。
- 主备站点数据实时同步:RPO(recovery point objective)内数据一致。
- 可靠性:分钟级RTO(recovery time objective)、RPO指标。
- 强大的自动修复能力:服务异常时自动修复。
进行异地容灾切换后,原在线的设备与iMaster NCE-Campus建立的链接将不可用,iMaster NCE-Campus会将其下线,然后设备会自动重新上线,预计等待10分钟~20分钟,设备将刷新至正常状态。
常用概念
异地容灾系统常用概念及站点差异介绍。
常用概念
名称 |
说明 |
---|---|
主站点 |
指物理上的主站点。主站点在安装的时候确定,不会随着主备关系的倒换而改变。主站点产品大部分时间处于主用状态,对外提供服务。 |
备站点 |
指物理上的备站点。备站点在安装的时候确定,不会随着主备关系的倒换而改变。备站点产品大部分时间处于备用状态,对主站点起保护作用。备站点的管理面对备站点进行维护和监控。 |
主用站点 |
指逻辑上的主站点,为当前提供服务的站点。 |
备用站点 |
指逻辑上的备站点,对主用站点起保护作用的站点。 |
容灾系统 |
指主站点和备站点上各自部署了一套相同规划要求的管理面和产品。 |
容灾关系 |
指主站点和备站点上具有容灾保护的产品之间的关系。 |
心跳链路 |
主备站点通过心跳链路进行通讯,获取对端站点状态。 对于心跳状态,异地容灾系统每10秒检查一次,若连续两次的检查结果一致,则刷新主备站点心跳状态。 |
数据复制链路 |
主备站点通过复制链路进行数据同步。 对于复制状态,异地容灾系统每30秒检查一次,并刷新主备站点数据复制状态。 |
站点差异
场景 |
差异点 |
---|---|
登录管理面 |
异地容灾系统主要是对站点产品进行容灾保护,而管理面上的数据不会同步,并且主备站点的管理面都为运行状态,则主备站点管理面 Web界面都能正常登录。 |
登录业务面 |
创建异地容灾系统后,只有主用站点产品对外提供服务,所以主用站点的业务面Web界面能正常登录,而备用站点的业务面Web界面无法登录。 |
服务状态 |
相比主用站点产品,备用站点产品上运行的服务较少,备用站点产品上只运行与异地容灾系统相关的基础服务。备用站点产品上运行的服务可在备用站点“产品 > 系统监控”的“服务”页签中查看,异地容灾系统运行所不依赖的其他服务在该页签中不显示。 |
容灾操作 |
在主用站点上可以对产品执行降备操作,但不能执行接管操作;在备用站点上可以对产品执行接管操作,但不能执行降备操作。 |
告警上报 |
主用站点的告警上报至主用站点业务面;由于备用站点的业务面Web界面无法登录,备用站点的告警也上报至主用站点业务面。 |
方案介绍
手动倒换
方案介绍:
主备站点之间通过心跳链路实时检测对端站点状态是否正常;主用站点产品通过数据复制链路向备用站点产品实时同步数据,确保主备站点数据一致。
当主站点发生故障时,在备站点手动对产品执行接管操作。备站点升级为主用站点对外提供服务,同时主站点降为备用站点。
手工倒换判断规则:
- 主站点发生地震、火灾、停电等灾难性故障,导致系统整体无法对外提供服务。
- 主站点故障,导致部分关键节点损坏无法提供对应服务。例如数据库节点(DB)损坏、平台服务节点(Common_Service)损坏、管理域服务节点(NMS)损坏、控制域服务节点(Controller或TController)损坏。
方案示意图:
容灾网络可复用iMaster NCE-Campus原有网络,以减少主备站点的网络配置。
容灾链路 |
IP地址 |
网络平面 |
---|---|---|
数据复制链路 |
复制IP |
异地容灾网络 说明:
异地容灾网络可从节点间通信网络、北向网络之中选择一个复用;或者使用一个独立网络平面。 |
心跳链路 |
心跳IP |
异地容灾网络,要求和复制IP所在的网络平面一致。 |
自动倒换(带仲裁服务)
方案介绍:
为了防止站点间网络异常时出现双主脑裂,仲裁服务提供站点私网状态监控功能,对主、备、三方站点进行周期性的网络连通性检测,并将对应的检查结果通过数据共享链路共享给主、备、三方站点。当网络出现异常或者站点故障导致仲裁心跳异常时,仲裁服务通过内部算法给出当前网络的最优站点,来实现主备站点的自动倒换。
自动倒换触发条件:
- 主站点发生地震、火灾、停电等灾难性故障,且在设置时间内没有恢复。
- 主备心跳链路中断,且主用站点与三方站点间的数据共享链路中断。
- iMaster NCE-Campus管理域场景和管控析小型化场景:
- 当系统默认设置的关键微服务故障时,异地容灾系统将触发自动倒换,保障业务的正常运行。
- 服务器网口故障等导致业务网络(南向或北向网络)故障,系统自动触发倒换。
- 所有数据库实例均故障,系统自动触发倒换。
- 管控析场景,节点及应用服务采用主备或集群部署,配置本地保护。对关键微服务、 服务器业务网口及数据库实例故障的情况,不触发异地容灾自动倒换。
- 在触发自动倒换的优先级上,所有数据库实例故障 > 服务器业务网口故障 > 关键微服务故障。假设备站点上存在所有数据库实例均故障的情况,即便主站点关键微服务故障,亦不会触发自动倒换。
仲裁服务部署:
- 主站点、备站点和三方站点的CPU架构要求一致。如主备站点为ARM架构服务器,则三方站点亦要求为ARM架构服务器。
- iMaster NCE-Campus管控析场景,采用5节点仲裁服务部署方案。仲裁服务通过2+2+1方式部署在三个站点。
- 主站点、备站点分别部署两个仲裁节点,部署在Common_Service节点,站点间的仲裁节点互为保护;三方站点部署1个仲裁节点。
- 5个仲裁节点均部署ETCD形成一个ETCD集群。主站点和备站点的4个节点部署Monitor,Monitor负责站点间网络连通性检测,并将结果保存在ETCD集群中。
图3-24 异地容灾自动倒换5节点系统示意图 - iMaster NCE-Campus管理域场景和管控析小型化场景采用3节点仲裁服务部署方案。仲裁服务通过1+1+1方式部署在三个站点。
- 主站点、备站点分别部署1个仲裁节点,管控析小型化场景部署在Common_Service节点,管理域场景部署在NMS_Server节点;三方站点部署1个仲裁节点。
- 3个仲裁节点均部署ETCD形成一个ETCD集群。主站点和备站点的2个节点部署Monitor,Monitor负责站点间网络连通性检测,并将结果保存在ETCD集群中。
图3-25 异地容灾自动倒换3节点系统示意图
容灾网络建议复用iMaster NCE-Campus原有网络,以减少主备站点的网络配置。
容灾链路 |
IP地址 |
网络平面 |
---|---|---|
数据复制链路 |
复制IP |
异地容灾网络 说明:
异地容灾网络可从节点间通信网络、北向网络之中选择一个复用;或者使用一个独立网络平面。 |
心跳链路 |
心跳IP |
异地容灾网络,要求心跳IP和复制IP所处的网络平面一致。 |
仲裁心跳/数据共享链路 |
仲裁节点间通信IP |
异地容灾网络 说明:
|
异地容灾系统维护场景
在系统的正常运行过程中,您需要周期性展开检查和维护工作,及时发现并消除异地容灾系统运行过程中可能存在的故障隐患,使系统能够长时间安全、稳定、可靠运行。
站点差异
主用站点和备用站点的部署方案要求一致,但两站点在业务和容灾操作上会存在部分差异,具体如表3-113所示。
场景 |
差异点 |
---|---|
登录管理面 |
异地容灾系统主要是对站点产品进行容灾保护,而管理面上的数据不会同步,并且主备站点的管理面都为运行状态,则主备站点管理面 Web界面都能正常登录。 |
登录业务面 |
创建异地容灾系统后,只有主用站点产品对外提供服务,所以主用站点的业务面Web界面能正常登录,而备用站点的业务面Web界面无法登录。 |
服务状态 |
相比主用站点产品,备用站点产品上运行的服务较少,备用站点产品上只运行与异地容灾系统相关的基础服务。备用站点产品上运行的服务可在备用站点“产品 > 系统监控”的“服务”页签中查看,异地容灾系统运行所不依赖的其他服务在该页签中不显示。 |
容灾操作 |
在主用站点上可以对产品执行降备操作,但不能执行接管操作;在备用站点上可以对产品执行接管操作,但不能执行降备操作。 |
告警上报 |
主用站点的告警上报至主用站点业务面;由于备用站点的业务面Web界面无法登录,备用站点的告警也上报至主用站点业务面。 |
场景 |
故障修复操作 |
备注 |
---|---|---|
主站点产品故障。如:
|
|
|
主备站点产品处于“双主”状态,并且主站点和备站点间的心跳异常(心跳状态为 |
||
|
||
主站点和备站点之间的心跳状态异常(心跳状态为 |
|
|
主站点由于人工误操作或者外部攻击导致数据异常或者丢失,需要先删除主备站点间的数据同步关系,修复主站点数据后,再强制同步主备站点间的数据,防止主站点的异常数据同步到备站点。 |
- |
状态介绍
对异地容灾系统中常见的状态和状态转换原理进行介绍。
异地容灾系统和主备站点产品的状态如表3-116所示。
系统状态 |
产品容灾状态 |
说明 |
---|---|---|
正常状态 |
主站点产品:主用 备站点产品:备用 |
此时业务运行在主站点产品上。 主备站点之间的心跳状态正常,数据同步方向从主站点产品到备站点产品,备站点起到保护作用。 |
倒换状态 |
主站点产品:备用 备站点产品:主用 |
此时业务运行在备站点产品上。 主备站点之间的心跳状态正常,数据同步方向从备站点产品到主站点产品,主站点起到保护作用。 |
故障接管状态 |
主站点产品:未知 备站点产品:主用 |
此时主站点产品故障,业务运行在备站点产品上。 |
双主状态 |
主站点产品:主用 备站点产品:主用 |
此时业务同时运行在主站点产品和备站点产品上。 |
双备状态 |
主站点产品:备用 备站点产品:备用 |
此时主备站点产品上均无业务运行。 |
保护失效状态 |
主站点产品:主用 备站点产品:未知 |
此时业务运行在主站点产品上。 |
系统失效状态 |
主站点产品故障 备站点产品故障 |
主备站点都故障,无业务运行,主备站点之间的心跳状态和主备站点产品之间的数据同步状态均异常。 |
主站点产品和备站点产品状态之间的转换关系和触发因素如图3-26和表3-117所示。
- “←→”表示两个状态之间可以相互转换。
- “→”表示两个状态之间只能单向转换。
转换线序 |
状态转换 |
触发因素 |
---|---|---|
1 |
正常状态(主站点产品主用、备站点产品备用)→双备状态(主站点产品备用、备站点产品备用) |
主站点和备站点之间的心跳状态异常时,主备站点下电后再上电或者对主站点产品降备。产品降备过程中服务中断,建议用户慎重选择降备操作。 |
2 |
双备状态(主站点产品备用、备站点产品备用)→正常状态(主站点产品主用、备站点产品备用) |
主站点和备站点间的心跳状态恢复正常,但主站点产品和备站点产品之间的数据同步状态异常时,将主站点产品的数据强制同步至备站点产品,此时备站点的数据会被覆盖。 |
3 |
正常状态(主站点产品主用、备站点产品备用)→保护失效状态(主站点产品主用、备站点产品故障) |
备站点故障。 |
4 |
正常状态(主站点产品主用、备站点产品备用)→故障接管状态(主站点产品故障、备站点产品接管后主用) |
主站点下电或者故障后,备站点接管主站点业务。 |
5 |
故障接管状态(主站点产品故障、备站点产品接管后主用)→系统失效(主站点产品故障、备站点产品故障) |
主站点和备站点故障。 |
6 |
保护失效状态(主站点产品主用、备站点产品故障)→系统失效(主站点产品故障、备站点产品故障) |
备站点故障的同时主站点也故障。 |
7 |
正常状态(主站点产品主用、备站点产品备用)←→倒换状态(主站点产品备用、备站点产品主用) |
主站点产品和备站点产品发生倒换。 |
8 |
故障接管状态(主站点产品故障、备站点产品接管后主用)→双主状态(主站点产品主用、备站点产品接管后主用) |
手工倒换或自动倒换(不带仲裁服务)场景下,主站点和备站点间的心跳状态异常时,主站点故障恢复正常。 |
9 |
双主状态(主站点产品主用、备站点产品接管后主用)→正常状态(主站点产品主用、备站点产品备用) |
执行强制同步主站点产品和备站点产品数据后,产品数据从主站点产品向备站点产品同步,此时备站点产品上的数据被覆盖。 |
10 |
双主状态(主站点产品主用、备站点产品接管后主用)→倒换状态(主站点产品备用、备站点产品主用) |
执行强制同步主站点产品和备站点产品数据后,产品数据从备站点产品向主站点产品同步,此时主站点产品上的数据被覆盖。 |
11 |
双备状态(主站点产品备用、备站点产品备用)→倒换状态(主站点产品备用、备站点产品主用) |
执行强制同步主站点产品和备站点产品数据后,产品数据从备站点产品向主站点产品同步,此时主站点产品上的数据被覆盖。 |
12 |
双备状态(主站点产品备用、备站点产品备用)→保护失效状态(主站点产品主用、备站点产品故障) |
主站点和备站点间的心跳状态异常时,重启主用站点的容灾服务后异地容灾系统故障。 |
13 |
正常状态(主站点产品主用、备站点产品备用)→双主状态(主站点产品主用、备站点产品自动接管后主用) |
自动倒换(不带仲裁服务)场景下,主站点和备站点间的心跳状态异常。 |
异地容灾系统中的站点心跳状态、产品的容灾状态和数据同步状态如表3-118所示。
监控项 |
描述 |
---|---|
心跳状态 |
|
容灾状态 |
具有容灾关系的产品的状态。
|
数据同步状态 |
|
创建或者删除异地容灾系统
当异地容灾系统无需再使用,或者修改影响异地容灾系统的配置时,对异地容灾系统进行删除。当异地容灾系统删除后需重新创建,或者影响异地容灾系统的配置修改完成后,对异地容灾系统进行创建。
容灾配置前置检查
在配置异地容灾系统前,检查主备站点是否满足配置要求,确保异地容灾系统的顺利配置。
前提条件
异地容灾系统配置前,请确保主备站点满足如下要求。
- 部署方案要求:
- 主备站点均须选择“异地容灾”作为站点类型,以确保安装的容灾服务一致。
- 主站点和备站点部署方案(产品类型、部件方案、网络规模等)一致。当主站点和备站点部署方案一致时,两站点上使用的软件包、节点个数、管理面和产品的语言、版本、服务、服务版本、异地容灾系统证书、根密钥、工作密钥、产品的数据库用户密码默认一致。
- 为主备站点配置同一NTP服务器,确保主备站点时间一致。
- 安装管理面时动态生成CA证书,所以需手工替换CA证书,使主备站点的CA证书一致。操作详见更新CA证书。
- 组网要求:
- 主站点和备站点间的心跳IP和数据复制IP能正常通信。
- 主站点和备站点上除NTP服务器以外的所有节点的IP地址不能相同,但IP协议版本需相同。如果规划成IPv6类型的IP地址,则主备站点都需要规划成IPv6类型的IP地址。
- 主站点和备站点间的带宽需满足要求。带宽要求详见EasySuite主站点或备站点的“高阶方案 > 带宽规划”。
- iMaster NCE-Campus系统要求:
- 主站点和备站点上的所有服务、数据库实例都运行正常,具体操作请参见系统监控。
- 已登录主站点或者备站点的管理面,具体操作请参见登录管理面。
操作须知
如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面中,单击“配置容灾系统”。
- 在界面中根据表3-119配置站点信息。
- 单击“增加产品”,选择主备站点产品和数据复制方向,然后单击“前置检查”。
- 前置检查包括以下检查项:
- 主站点和备站点间能够通过心跳链路正常通信。
若主备站点能正常通信,则表示两站点的心跳链路正常,且异地容灾系统证书相同。
- 主站点和备站点的节点个数相同。
- 主站点和备站点的服务和服务版本分别一致。
- 主站点和备站点的CA证书相同。
- 主站点和备站点的根密钥或者工作密钥分别相同。
- 主站点产品和备站点产品同一数据库实例用户的密码相同。
- 主站点和备站点各数据库实例状态正常,并且本地复制关系正常。
- 主站点和备站点管理面的语言一致。
- 主站点和备站点的时间差在1分钟之内。
- 主备站点安装时间间隔是否大于7天。
初次创建容灾时,若检查发现主备站点安装时间间隔大于7天,后安装的站点不允许作为主用站点,界面提示“新安装的集群不能作为主集群”。以防止局点改造场景下,新安装集群作为主集群,导致原有集群数据丢失。
- 主站点和备站点间能够通过心跳链路正常通信。
- 前置检查包括以下检查项:
- 前置检查是否通过:
- 如果检查通过,则表示满足创建异地容灾系统的配置要求,单击“保存草稿”。
- 如果检查不通过,根据界面提示修改问题。
配置异地容灾系统
备集群无需单独申请License,数据库同步成功之后,主集群的License会自动同步到备集群,主备倒换之后,备集群上无需导入License。
配置异地容灾系统(手工倒换)
将主站点和备站点组成异地容灾系统。
操作须知
- 只需在任意一个站点上执行本节操作。
- 因数据库状态需要等待刷新,建议删除异地容灾系统后等待5分钟,再创建异地容灾系统,否则可能操作失败。
- 异地容灾系统创建成功后,若需修改站点名称或者心跳IP地址,请删除异地容灾系统后再根据实际规划信息重新创建。
- 如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
- 配置或删除异地容灾系统、执行异地容灾倒换或强制同步主备产品数据过程中,由于备站点数据库被重启,备站点管理面将上报“GaussDB T V3进程未启动”告警。容灾操作完成后,告警将自动清除。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面中,单击“配置容灾系统”。
- 在界面中选择“配置健康评估参数”页签,“开启定时评估任务”功能默认使能。
“每日开始时间”:默认“07:00”,可根据实际情况进行调整。表示该定时任务于每日07:00对异地容灾系统进行健康检查。
- 按照界面指引完成异地容灾系统的创建。注意手工倒换方案无需进行“容灾扩展配置”。
关联主备站点后,主站点上的服务仍为启动,备站点上的部分服务会停止。
- 检查操作结果。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
- 如果操作结果与预期不符,请联系华为技术支持工程师。
- (可选)请根据实际情况手工启动进程或者修改进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 选择“进程”页签,勾选待启动的进程,在进程列表右上方单击“启动”,按照界面指引完成相关操作。
- 如果产品存在需修改启动类型的进程,具体操作请参见配置进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
配置异地容灾系统(自动倒换,带仲裁服务)
将主备站点与仲裁三方站点关联,组成自动倒换系统。
操作须知
- 只需在任意一个站点上执行本节操作。
- 因数据库状态需要等待刷新,建议删除异地容灾系统后等待5分钟,再创建异地容灾系统,否则可能操作失败。
- 异地容灾系统创建成功后,若需修改站点名称或者心跳IP地址,请删除异地容灾系统后再根据实际规划信息重新创建。
- 如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
- 配置或删除异地容灾系统、执行异地容灾倒换或强制同步主备产品数据过程中,由于备站点数据库被重启,备站点管理面将上报“GaussDB T V3进程未启动”告警。容灾操作完成后,告警将自动清除。
操作步骤
- 在管理面主菜单中选择 。
- 在“管理异地容灾系统”页面中,单击“配置容灾系统”。
- 在界面中选择“配置健康评估参数”页签,“开启定时评估任务”功能默认使能。
“每日开始时间”:默认“07:00”,可根据实际情况进行调整。表示该定时任务于每日07:00对异地容灾系统进行健康检查。
- 在界面中选择“容灾扩展配置”页签,单击
按钮使能“自动倒换”功能。
- 配置自动倒换配置和倒换延迟时间等心跳信息后,单击“确定”。
- 自动倒换配置的类型:iMaster NCE-Campus使用“NCE默认三方仲裁”。
自动倒换配置的类型:若仲裁服务需要用户密码认证,请选择“NCE外部仲裁系统”。
- 自动倒换配置的IP地址:填写部署了仲裁服务的仲裁节点间通信IP地址。如仲裁服务采用5节点部署方案,需填写5个仲裁节点的IP地址。
- 心跳配置:心跳中断检测及倒换延迟时间默认设置为5分钟。心跳间隔(默认10秒)*超时次数(默认18次)+倒换延迟(默认2分钟)=默认5分钟。可根据产品实际情况调整。
- 自动倒换配置的类型:iMaster NCE-Campus使用“NCE默认三方仲裁”。
- 按照界面指引完成异地容灾系统的创建。
关联主备站点后,主站点上的服务仍为启动,备站点上的部分服务会停止。
- 检查操作结果。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
- 如果操作结果与预期不符,请联系华为技术支持工程师。
- (可选)请根据实际情况手工启动进程或者修改进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 选择“进程”页签,勾选待启动的进程,在进程列表右上方单击“启动”,按照界面指引完成相关操作。
- 如果产品存在需修改启动类型的进程,具体操作请参见配置进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
删除异地容灾系统
当异地容灾系统无需再使用,或者修改影响容灾系统的配置时,可以通过该功能删除异地容灾系统。
前提条件
已登录主站点和备站点的管理面,具体操作请参见登录管理面。
操作须知
- 删除主站点和备站点后,异地容灾系统的所有产品的容灾关系也将删除,备站点将不再对主站点进行容灾保护,数据也将无法进行同步,但两站点上的数据不会被删除。
- 删除主站点和备站点后,会删除主备站点健康检查的历史记录。
- 如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
- 配置或删除异地容灾系统、执行异地容灾倒换或强制同步主备产品数据过程中,由于备站点数据库被重启,备站点管理面将上报“GaussDB T V3进程未启动”告警。容灾操作完成后,告警将自动清除。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在界面右上角单击“删除”。
- 按照界面上的指引完成相关操作。
若主站点和备站点间的心跳状态为
,在任意一个站点执行将同时删除对端站点的容灾关系;若主站点和备站点间的心跳状态为
,则对端的容灾关系无法删除,需分别在主备站点上执行。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,被删除的异地容灾系统已不存在。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
- 在“任务列表”页面中显示删除异地容灾系统部分成功和删除产品部分成功,可能是产品节点下电或者异常时删除异地容灾系统导致,节点恢复正常后需清除产品节点上的容灾信息,否则在非异地容灾场景时该节点上的业务异常,具体操作请参见《故障处理》中的“删除异地容灾系统后清除产品节点的容灾信息”章节。
- 删除成功后历史备份数据会失效,请备份产品数据和管理面,具体操作请参见备份产品和备份管理面。
删除异地容灾系统后,若需重新配置异地容灾系统,请在异地容灾系统创建完成后再备份产品数据和管理面。
后续操作
删除异地容灾系统后,主备站点产品服务状态仍会处于删除前的状态。
- 管控析场景,为了防止主备站点产品处于“双主”状态造成业务抢占、业务重复下发等问题,一般情况请勿启动备站点的服务。如需启动备站点的服务,备站点启动期间请勿在主备站点下发业务。
- 管理域场景,若主备站点配置了站点间北向对接浮动IP,如需手工启动备站点产品的服务,可能造成北向对接浮动IP冲突。请手工关闭备站点北向对接浮动IP网卡。
- 使用PuTTY工具以sopuser用户通过SSH方式登录备站点管理节点。
- 执行以下命令,切换至root用户。
> su - root
Password:root用户的密码
- 执行命令查询管理节点网卡使用状态。
# ifconfig
- 若查询结果列表中包含北向对接浮动IP网卡(如bond0:0),则表明北向对接浮动IP网卡未关闭。执行如下命令进行关闭。
# ifconfig bond0:0 down
- 再次执行命令查询管理节点网卡使用状态,查询结果列表中不再包含北向对接浮动IP网卡。
# ifconfig
连接主备站点产品
在修改影响产品容灾系统的配置后,需要重新建立主备站点产品的容灾关系。
前提条件
操作须知
- 只需在任意一个站点上执行本节操作。
- 因数据库状态需要等待刷新,建议删除异地容灾系统后等待5分钟,再创建异地容灾系统,否则可能操作失败。
- 如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
- 自动倒换(带仲裁服务)场景下,在删除主备站点产品的容灾关系后,主备站点产品服务和数据库状态仍会处于删除前的主用或备用状态。为了防止新添加产品与删除前产品的状态冲突导致“双主”现象,在重新建立主备站点产品的容灾关系前,需要暂时关闭“自动倒换”功能,在添加产品后重新开启“自动倒换”功能。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 自动倒换(带仲裁服务)场景下,需关闭“自动倒换”功能。
- 在“管理异地容灾系统”页面中,单击“增加产品”。
- 按照界面指引完成相关操作。
- 检查操作结果。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
- 如果操作结果与预期不符,请联系华为技术支持工程师。
- 自动倒换(带仲裁服务)场景下,在界面中选择“容灾扩展配置”页签,设置“自动倒换”按钮为
,开启“自动倒换”能力。并参考2.b恢复容灾拓展配置。
分离主备站点产品
当产品不再需要容灾保护,或者修改影响产品容灾功能的配置时,可以通过该功能分离主备站点产品。
前提条件
已登录主站点或者备站点的管理面,具体操作请参见登录管理面。
操作须知
- 分离主备站点产品后,主备站点产品将成为两个独立的产品,备站点产品将不再对主站点进行容灾保护,数据也将无法进行同步,但两站点产品的数据不会被删除。
- 如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在待删除的产品所在行“操作”列中,单击
。
- 按照界面上的指引完成相关操作。
若主站点和备站点间的心跳状态为
,在任意一个站点执行将同时删除对端站点的产品;若主站点和备站点间的心跳状态为
,则对端的产品无法删除,需分别在主备站点上执行。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,被删除的产品行已不存在。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
后续操作
为了防止主备站点产品处于“双主”状态,在分离主备站点产品后,主备站点产品服务和数据库状态仍会处于删除前的状态,若需启动备站点上的服务,请登录备站点执行操作,具体操作请参见启动业务面。
删除主备站点间产品的数据同步关系
当主站点产品出现异常数据时,通过该功能可停止主站点产品的数据向备站点产品复制的能力,避免备站点上的数据也异常。
前提条件
- 已登录主站点或者备站点的管理面,具体操作请参见登录管理面。
- 确保主站点和备站点间的心跳状态为
。
操作须知
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 在待删除数据同步关系的产品所在行“操作”列中,单击
。
- 按照界面上的指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看该产品的“数据同步状态”为“异常”。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
冻结产品服务自动启动
默认状态下,异地容灾系统每5分钟会检查主用站点所有服务和备用站点部分产品服务的启动状态,并启动已停止的服务,保持这些服务处于启动状态。如果维护时需要使服务处于持续停止状态,需要冻结容灾系统的自动启动服务功能。为了保障产品服务正常运行,请保持产品处于解冻状态。
前提条件
已登录主用站点或备用站点的管理面,具体操作请参见登录管理面。
操作须知
- 主备用站点心跳状态正常时,在主用站点或者备用站点操作会同步修改对端站点对应产品的冻结状态;心跳异常时,修改只对当前站点所选产品生效,不会同步到对端站点对应产品。
- 只需在任意一个站点上执行本节操作。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在对应的产品所在行“是否冻结”列下参见下表进行配置。表3-120 冻结状态说明
状态
说明
当前产品处于解冻状态,异地容灾系统每5分钟会检查主备用站点该产品服务启动状态,并启动主用站点该产品所有服务和备用站点对应产品部分系统服务。
当前产品处于冻结状态,异地容灾系统将停止检查主备用站点该产品服务启动状态。产品节点下电后再上电,产品服务不会自动启动。若需手工启动产品服务,具体操作请参见启动业务面。
须知:若管理节点和产品节点为同一个节点,当前产品处于冻结状态且节点下电后再上电时,异地容灾系统会自动启动产品容灾状态自动修复任务,冻结状态的产品服务会被启动。
- 按照界面上的指引完成相关操作。
例行维护
通过例行维护,可以及时发现异地容灾系统运行过程中可能存在的隐患,使异地容灾系统能够长时间安全、稳定、可靠运行。
异地容灾系统演练
建立主备站点容灾关系后,可以通过倒换主备站点测试备站点产品是否可以正常接管主站点产品业务。测试过程中会自动启停产品节点服务,建议在业务空闲期执行本节操作。
前提条件
- 已登录主站点或者备站点的管理面,具体操作请参见登录管理面。
- 确保主站点和备站点间的心跳状态为
,所有产品的数据同步状态为“已同步”或者“同步中”。
操作须知
- 只需在任意一个站点上执行本节操作。
- 倒换过程中,如果数据同步状态显示为“同步中”,表示主站点和备站点该产品的数据正在同步,系统将等待数据同步完成后再进行倒换。如果系统等待超时则会倒换失败,站点仍处于执行倒换操作前的状态。
- 如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
- 配置或删除异地容灾系统、执行异地容灾倒换或强制同步主备产品数据过程中,由于备站点数据库被重启,备站点管理面将上报“GaussDB T V3进程未启动”告警。容灾操作完成后,告警将自动清除。
背景信息
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,根据实际场景选择对应的操作步骤。
- 对单个产品进行演练
在产品所在行的“操作”列,单击
,按照界面指引完成相关操作。
- 对所有产品进行演练
选择所有产品后,单击产品列表上方的“倒换”,按照界面指引完成相关操作。
数据同步过程中,备用站点的“系统监控”页面可能显示数据库状态为“异常”。数据同步完成后,数据库状态将恢复为“正常”。
- 对单个产品进行演练
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”界面中查看倒换产品的“主站点产品”和“备站点产品”列的信息,产品容灾状态与倒换结果相符。
- 在“管理异地容灾系统”页面,查看倒换产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录并且界面中各菜单显示完整,具体操作请参见登录业务面。
- 再次进行倒换,恢复原主站点和备站点状态。
- (可选)请根据实际情况手工启动进程或者修改进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 选择“进程”页签,勾选待启动的进程,在进程列表右上方单击“启动”,按照界面指引完成相关操作。
- 如果产品存在需修改启动类型的进程,具体操作请参见配置进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
主备站点健康检查
为确保异地容灾系统的稳定运行,系统会定时对异地容灾系统的健康状态进行检查,也可通过本章节的手工方式检查是否存在异常项。在执行倒换主备站点产品前建议先对异地容灾系统进行健康检查,避免系统异常导致倒换失败。
前提条件
- 已登录管理面,具体操作请参见登录管理面。
- 确保主备站点间的心跳链路和数据复制链路均能正常通信。
背景信息
- 在创建异地容灾系统后,备站点管理面会创建默认的健康检查定时任务,该定时任务于每日07:00:00对异地容灾系统进行健康检查。若需修改定时任务运行时间,具体操作请参见修改异地容灾系统参数。
- 当存在异常的健康检查项时,异地容灾系统每隔1小时会对所有检查项进行检查,直至检查项全部正常或者到下次定时健康检查的时间。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面右上角单击“健康评估”,按照界面上的指引完成相关操作。
- 查看评估结果为“异常”的检查项,根据修复建议处理。
故障维护
当异地容灾系统发生故障时,帮助您快速恢复故障场景,提升运维效率。
接管故障产品
当主站点产品发生故障无法对外提供服务时,可以通过该功能使备站点产品接管主站点产品的业务,以减少故障带来的损失。
前提条件
已登录备站点管理面,具体操作请参见登录业务面。
操作须知
- 接管操作只能在产品的容灾状态处于“备用”的产品上执行。接管成功后,备用站点产品接管主用站点产品的业务,对外提供服务。
- 接管过程中,如果数据同步状态不是“已同步”,接管可能会导致产品数据丢失。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,根据实际场景选择对应的操作步骤。
- 若单产品故障
在产品所在行的“操作”列,单击
,按照界面指引完成相关操作。
- 若多产品故障
请选择待接管产品,单击产品列表上方的“接管”,按照界面指引完成相关操作。
- 若单产品故障
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
如果主站点和备站点间的心跳状态异常或者在接管过程中主站点产品降备失败,异地容灾系统会进入“双主”状态,可能会导致数据丢失。用户需要在主备站点心跳状态恢复后,强制同步主备站点产品间的数据,使得主备站点产品上的数据保持一致,具体操作请参见同步主备产品数据。
- (可选)请根据实际情况手工启动进程或者修改进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 选择“进程”页签,勾选待启动的进程,在进程列表右上方单击“启动”,按照界面指引完成相关操作。
- 如果产品存在需修改启动类型的进程,具体操作请参见配置进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
后续处理
接管完成后,需要根据异地容灾系统状态进行修复,具体操作请参见表3-121。
接管后现象 |
可能原因 |
接管后恢复措施 |
---|---|---|
站点间的心跳状态为 |
主站点产品故障已恢复。 |
在“管理异地容灾系统”页面,在产品所在行的“操作”列,单击 |
站点间的心跳状态为 |
|
|
站点间的心跳状态为 |
|
如果主站点和备站点间的心跳状态异常或者在接管过程中主用站点产品降备失败,接管后该产品会进入“双主”状态,可能会导致数据丢失,可通过如下方式修复“双主”状态。
|
主站点发生灾难性故障。 |
异地容灾系统心跳异常
故障现象
在管理面的“管理异地容灾系统”页面中,存在心跳状态为(异常)或
(未知)的情况。
异地容灾心跳列表如图3-30所示,单击展开故障的心跳列表后,可查看具体故障节点。
故障现象 |
心跳用途 |
可能原因及处理措施 |
---|---|---|
|
dc1与dc2(主备间手动倒换心跳) |
请参考主备站点间心跳异常。 |
dc1与dc2(主备间自动倒换心跳) |
||
dc1与dc2(主备间仲裁心跳) |
请参考现象1:主备间仲裁心跳异常。 |
|
dc1与三方仲裁站点(主站点和三方仲裁站点心跳) |
请参考现象2:主站点和三方站点心跳异常。 |
|
dc2与三方仲裁站点(备站点和三方仲裁站点心跳) |
请参考现象3:备站点和三方站点心跳异常。 |
|
|
dc1与三方仲裁站点(主站点和三方仲裁站点心跳) |
|
dc2与三方仲裁站点(备站点和三方仲裁站点心跳) |
现象1:主备间仲裁心跳异常
可能原因 |
验证方法 |
修复方法 |
---|---|---|
主站点和备站点的仲裁节点间心跳中断。 |
|
联系管理员检查并恢复网络。 |
仲裁服务异常。 |
|
联系华为工程师修复故障。修复后请使用PuTTY工具以sopuser用户通过SSH方式登录主站点及备站点已修复的仲裁节点,切换到root用户后,切换到arbiter用户重启仲裁节点的monitor或ETCD。
|
现象2:主站点和三方站点心跳异常
可能原因 |
验证方法 |
修复方法 |
---|---|---|
主站点管理节点和三方站点网络中断。 |
|
联系管理员检查并恢复网络。 |
三方站点故障或三方站点ETCD进程停止。 |
|
联系华为工程师修复故障。修复后请使用PuTTY工具以sopuser用户通过SSH方式登录三方站点已修复的仲裁节点,切换到root用户后,切换到arbiter用户重启三方站点的ETCD进程。 bash /opt/arbitration-etcd/script/service.sh restart |
现象3:备站点和三方站点心跳异常
可能原因 |
验证方法 |
修复方法 |
---|---|---|
备站点管理节点和三方站点网络中断。 |
|
联系管理员检查并恢复网络。 |
三方站点故障或三方站点ETCD进程停止。 |
|
联系华为工程师深层定位及修复故障。修复后请使用PuTTY工具以sopuser用户通过SSH方式登录三方站点已修复的仲裁节点,切换到root用户后,切换到arbiter用户重启三方站点仲裁节点的ETCD进程。 bash /opt/arbitration-etcd/script/service.sh restart |
现象4:主站点/备站点和三方站点心跳未知
可能原因 |
验证方法 |
修复方法 |
---|---|---|
主站点被孤立。即主站点和备站点的网络中断,主站点和三方站点的网络中断。 |
结合其他状态信息进行判断。
若上述现象均符合,则主站点被孤立。 |
联系管理员检查并恢复网络。 |
备站点被孤立。即备站点和主站点的网络中断,备站点和三方站点的网络中断。 |
结合其他状态信息进行判断。
若上述现象均符合,则备站点被孤立。 |
联系管理员检查并恢复网络。 |
主备站点间心跳异常
现象描述
在管理面的“管理异地容灾系统”页面中,主站点和备站点之间的心跳状态显示为(异常)。
可能原因
- 主站点和备站点之间心跳网络异常。
- 主站点或备站点的容灾服务异常。
- 主站点和备站点管理节点上的异地容灾系统证书不匹配或者已过期。
前提条件
- 已获取备站点管理节点的心跳IP地址。
- 已获取主备站点管理节点sopuser和ossadm用户的密码。
处理步骤
该故障排查方法比较复杂,此处只介绍初步的排查方法,如果仍不能解决,请联系华为技术支持工程师处理。
- 检查主站点和备站点之间的心跳网络是否连通。
- 使用PuTTY工具以sopuser用户通过SSH方式登录主站点的管理节点。执行下述命令,切换至ossadm用户。
> su - ossadm
Password:ossadm用户的密码
- 执行以下命令,测试主站点和备站点管理节点的连通性。
- 如果IP地址为IPv4:
> ping 备站点管理节点的心跳IP地址
- 如果IP地址为IPv6:
> ping6 备站点管理节点的心跳IP地址
查看系统回显信息:
- 如果回显如下类似信息,表示可以ping通,说明网络连接正常。
64 bytes from 备站点管理节点的心跳IP地址: icmp_seq=1 ttl=251 time=42.1 ms
- 如果等待1分钟无回显信息,说明网络连接异常,请联系管理员检查并恢复网络。
- 如果IP地址为IPv4:
- 按“Ctrl+C”终止ping命令。
- 使用PuTTY工具以sopuser用户通过SSH方式登录主站点的管理节点。执行下述命令,切换至ossadm用户。
- 分别检查主站点和备站点管理节点的容灾进程是否正常。
- 登录主站点管理面,具体操作请参见登录管理面。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择iMaster NCE-Campus-OMP。
- 选择“服务”页签,单击“UniEPMgr”。
- 在“服务进程”区域,查看是否有“drmgrservice-x-x”进程,且该进程的“状态”是否为“正在运行”。
x为实例编号,具体以实际为准。
- 是,表示该进程存在,且运行正常。
- 否,请联系华为技术支持工程师处理。
- 登录主站点管理面,参考以上操作,检查备站点容灾进程是否正常,如果异常请联系华为技术支持工程师修复容灾进程。
- 检查主站点和备站点管理节点的异地容灾系统证书是否过期。查看是否存在主备站点的“51025 容灾证书已过期”告警。
- 是,请更新容灾证书,具体操作请参见《系统维护与监控(管理面)》中的“更新异地容灾系统证书”章节。
- 否,则表示不是证书过期导致该故障。
- 联系华为技术支持工程师检查主站点和备站点管理节点异地容灾系统证书是否匹配。
修复异地容灾复制异常
主备站点数据库数据同步异常
现象描述
在管理面的“管理异地容灾系统”页面中,主站点和备站点之间的“数据同步状态”显示为“异常”,并且单击展开产品信息后,查看“数据类型”为“数据库”的状态,也显示为“异常”。
可能原因
主站点和备站点产品之间的数据复制链路通信异常。
异地容灾系统的数据复制异常定位思路如图3-31所示,本地数据库采用主备模式部署,数据写入主数据库,然后主数据库再同步给备数据库,如主站点DB01上的数据同步给DB02,备站点DB03上的数据同步给DB04。数据进行异地复制时,主站点数据会从主数据库同步给备站点的主数据库,如主站点DB01上的数据同步给备站点DB03。
影响数据复制的主要因素有以下几点:
- 主备站点产品间的数据复制链路。
- 本地节点间的数据复制链路。
- 数据库运行状态。
处理步骤
- 检查主备站点间的数据复制链路是否正常。
- 使用PuTTY工具以sopuser用户通过SSH方式登录主站点的管理节点。
- 执行以下命令,切换至主站点产品的主数据库实例所在节点。
> ssh 主站点产品的主数据库实例所在节点IP地址
- 执行以下命令,测试主站点和备站点数据库节点的连通性。
以下命令中的节点IP地址为备站点上与主站点产品的主数据库实例名称相同所在节点的IP地址。
- 如果IP地址为IPv4:
> ping 备站点某节点的IP地址
- 如果IP地址为IPv6:
> ping6 备站点某节点的IP地址
查看系统回显信息:
- 如果IP地址为IPv4:
- 在主站点上检查本地主备数据库实例状态。
- 强制同步主备站点间数据。
- 在主用站点管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面待同步数据的产品所在行“操作”列中,单击
,选择产品的数据同步方向。
选择数据同步方向时,异地容灾系统会根据用户选择方向进行全量数据同步,并覆盖被同步的站点产品数据。建议以含有最新数据的产品为主用站点产品,向对端站点产品同步。若选择由备用站点向主用站点产品同步,则首先备用站点会升级为主用,然后再进行产品数据同步。
- 按照界面上的指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
RHM数据复制异常
现象描述
RHM类型的数据主备复制异常。
可能原因
RHM服务异常。
处理步骤
- 在发生RHM服务异常的站点上重启RHM服务。
- 强制同步主备站点间数据。
- 在主用站点管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面待同步数据的产品所在行“操作”列中,单击
,选择产品的数据同步方向。
选择数据同步方向时,异地容灾系统会根据用户选择方向进行全量数据同步,并覆盖被同步的站点产品数据。建议以含有最新数据的产品为主用站点产品,向对端站点产品同步。若选择由备用站点向主用站点产品同步,则首先备用站点会升级为主用,然后再进行产品数据同步。
- 按照界面上的指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请联系华为技术支持工程师。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
修复产品容灾状态
降备产品
当主站点和备站点产品处于“双主”状态,并且主备站点间的心跳链路异常时,无法通过强制同步产品数据修复“双主”状态,则需通过该功能指定产品降备,使得异地容灾系统的产品状态恢复正常。
前提条件
已登录“主用”状态产品所在站点的管理面,具体操作请参见登录管理面。
背景信息
- 产品降备过程中,如果心跳链路正常,会将对端站点产品升主,避免主站点和备站点的该产品处于“双备”状态;如果心跳链路异常,则只对该产品进行降备。为了保证产品功能正常,请勿在心跳链路异常,并且主备站点产品的容灾状态处于“主用”和“备用”时执行降备。图3-32 产品降备前后示意图
- 降备过程中,如果数据同步状态显示为“同步中”或者“延迟”,表示该产品的数据正在同步,系统将等待数据同步完成后备用产品升主。如果系统等待超时则会倒换失败,系统会强制执行降备操作。
操作须知
如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,在产品所在行的“操作”列,单击
,按照界面指引完成相关操作。
若管理面部署了多个产品并需对这些产品执行降备操作,请选择待降备产品,单击产品列表上方的“降备”,按照界面指引完成相关操作。
- 检查操作结果。如果操作结果与预期不符,请参见《故障处理》中的“站点故障导致降备失败”章节进行修复。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”界面中,被降备的产品容灾状态为“备用”。
- 降备产品所在站点的业务面无法登录。
- (可选)请根据实际情况手工启动进程或者修改进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 选择“进程”页签,勾选待启动的进程,在进程列表右上方单击“启动”,按照界面指引完成相关操作。
- 如果产品存在需修改启动类型的进程,具体操作请参见配置进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
同步主备产品数据
当主备站点产品为“双主”或者“双备”,或者备站点节点下电等其他原因,造成主备站点产品间的数据同步状态异常,在主备站点间的心跳状态修复正常后,通过该功能指定数据同步方向,系统根据指定的方向对该产品的全量数据进行同步,使产品状态恢复正常,并且主站点产品和备站点产品的数据一致。
背景信息
操作须知
- 只需在任意一个站点上执行本节操作。
- 如果正在执行备份或恢复任务,请待任务执行完成后再执行本节操作,避免备份恢复任务或者该容灾操作失败。
- 配置或删除异地容灾系统、执行异地容灾倒换或强制同步主备产品数据过程中,由于备站点数据库被重启,备站点管理面将上报“GaussDB T V3进程未启动”告警。容灾操作完成后,告警将自动清除。
操作步骤
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在待同步数据的产品所在行“操作”列中,单击
,选择主备站点产品的数据同步方向。
选择数据同步方向时,异地容灾系统会根据用户选择方向进行全量数据同步。建议以含有最新数据的产品为主用站点产品,向对端站点产品同步。若选择由备用站点向主用站点产品同步,则首先备用站点会升级为主用,然后再进行产品数据同步。
- 按照界面上的指引完成相关操作。
- 检查操作结果。
- 在管理面主菜单中选择“高可用 > 异地高可用系统 > 管理异地容灾系统”。
- 在“管理异地容灾系统”页面,查看主备站点间的心跳状态为
。
- 在“管理异地容灾系统”页面,查看所有产品的“数据同步状态”为“已同步”或者“同步中”。如果“数据同步状态”显示为“延迟”,表示主站点和备站点有较多的数据正在同步,请等待数据同步完成后再检查状态。
- 主用站点业务面能正常登录,具体操作请参见登录业务面。
- 如果操作结果与预期不符,请联系华为技术支持工程师。
- (可选)请根据实际情况手工启动进程或者修改进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。
- 在管理面主菜单中选择“产品 > 系统监控”。
- 在“系统监控”页面左上方,光标移至
并选择对应的产品。
- 选择“进程”页签,勾选待启动的进程,在进程列表右上方单击“启动”,按照界面指引完成相关操作。
- 如果产品存在需修改启动类型的进程,具体操作请参见配置进程启动类型。
- 如果产品存在启动类型为手动的进程,执行以下操作。