视讯产品SMC1.0主备GK服务异常

发布时间:  2015-04-21 浏览次数:  301 下载次数:  16
问题描述

客户采用SMC1.0(主备GK)组网方案,网内包含20台MCU及200台高清终端;近期调测发现,在节点正常注册GK后,第二天必现全网节点离线现象(离线后查看GKM中GK在线,服务状态正常),重启GK服务或手动倒换后节点注册恢复正常。

告警信息

GKM侧:GK状态正常,GKM信息窗口无告警信息,无GK倒换信息。
终端侧: 终端提示找不到GK,如下图。

处理过程

1、首先检查主备服务器GK及双机服务状态均正常;
2、检查配置文件,各配置项OK;
3、备份系统日志,GK、VRRP配置文件、log日志后;重启GK服务,发现节点注册状态恢复正常;同时倒换备用GK后发现同样可正常注册。
4、查看系统日志,发现自上一次重启GK服务恢复正常后,至节点注册失败期间系统未见异常。初步排除系统异常导致该问题。
5、查询GK及VRRP日志文件,在GK日志中发现凌晨2点后所有的节点状态异常,同时GK发送大量IRQ消息至相应终端,如下图:

VRRP日志中出现多条测试仲裁IP地址超时信息,如下图:

 
通过以上排查,初步怀疑因仲裁IP地址凌晨2点出现连通性异常导致vrrp业务异常,从而影响gk服务。
6、与客户确认仲裁IP地址所在设备,近期设置了自动维护性重启。现场测试重启仲裁IP所在设备故障重现,确认问题原因。
7、更改仲裁IP至网络中其他稳定地址后,问题解决。

修改仲裁IP的方法为,打开vrrpd.ini配置文件。

#仲裁地址
virtual_ip_gw=10.11.59.254-----此处填写正确的仲裁地址。

 

根因

仲裁IP地址所在设备维护性重启,此时双机浮动IP ping测试其不通,双机检测机制PING仲裁IP地址超时,导致其认为网络有问题,最终浮动IP停止提供服务。

END