XX银行ORACLE rac DB双机宕机

发布时间:  2014-07-17 浏览次数:  361 下载次数:  11
问题描述
 XX银行报DB1服务器宕机,服务切换至DB2上。
华为工程师赶到现场,并对DB1进行重启操作,而后因为登录权限等问题和XX银行协商在业务高峰过后进行处理。
登陆到DB1上,发现DB1无法拉起服务,检查监听等状况没有开启,集群拉起监听和单机拉起监听均告失败,重启crs服务也告失败,期间做了多项排查,并查看了期间的系统日志CRS日志等相关信息。
检查两台服务器的系统时间不正确(硬件时钟状态正常),尝试手工同步DB1时间后,由于集群服务检查状态不正确,DB1自动重启,DB1重启后,系统时间仍然发生跳变,导致集群服务启动异常
 检查时间同步的crontab,发现定时同步任务已被修改,故系统无法自动同步时间。详见如下:

此crontab为客户IT修改的内容,导致系统时间不正常。 咨询客户同意后,决定先注释掉这几个定时任务,并重新添加华为原先提供的时间同步方案,详见如下:

DB1和DB2执行此操作时间同步成功后,重启服务器后,检查双机服务正常,数据库服务正常。

使用opermenu工具分别检验DB1、DB2,所有选项均能检测且正常,登录CTI2,检查datastation话单入库任务正常:


告警信息
处理过程
重新添加华为原先提供的时间同步方案
根因
两台服务器的系统时间不正确(硬件时钟状态正常),尝试手工同步DB1时间后,由于集群服务检查状态不正确,DB1自动重启,DB1重启后,系统时间仍然发生跳变,导致集群服务启动异常
检查时间同步的crontab,发现定时同步任务已被修改,故系统无法自动同步时间
建议与总结
建议客户不要在我们专属平台上添加任何自己编写的脚本进程,实现专网专用。

END