某IP承载网某省AR下挂的UMG退服的问题处理

发布时间:  2012-07-27 浏览次数:  90 下载次数:  1
问题描述
现象:HZAR1、HZAR2下挂UMG1、UMG3退服,即UMG与SS之间的通信中断,导致UMG向SS注册失败,UMG退出服务态。
版本:HZAR1、HZAR2:NE80E V300R003C02B697
组网如附件,大概描述如下:
UMG归属关系: 
UMG1归属SS4、UMG2归属SS8、UMG3归属SS12。
流量模型:
UMG1->HZAR1->HZAR2->SZBR2->GZCR2->GZBR2->GZAR4->SS4
UMG2->HZAR1->HZAR2->SZBR2->GZCR2->GZBR2->GZAR4->SS8
UMG3->HZAR2->HZAR1->SZBR1->GZCR1->GZBR1->GZAR3->SS12
HZAR1与HZAR2之间的连接:
POS 5/0/0、POS11/0/0、POS12/0/0组成IP-TRUNK进行通信,至于流量通过具体哪个物理端口,系统通过HASH算法来确定。
告警信息
1、SS4上报下属的“MGW退出服务”告警。
2、SS12上报下属的“MGW退出服务”告警。
2、UMG1和UMG3上报“虚拟媒体网关迁移出业务态”告警。
处理过程
1、根据流量模型,由于只有UMG1、UMG3与相应的SS之间的信令交互中断,所以:故障点出在HZAR1、HZAR2之间的链路上。
2、9:37分,在UMG1/UMG3退服之前,POS5/0/0发生过一次因光功率低告警:
 Slot5 PIC0 port0 ESFP RxPower is too low, maybe fiber not plugged.
3、9:38:33,在UMG1/UMG3退服之前,因POS11/0/0链路质量不好,客户将POS11/0/0退出IP-TRUNK,执行了命令:undo ip-trunk 2,就开始排查POS11/0/0的链路问题了。
4、9:38:33,由于在ip-trunk2接口下配置了least active-linknumber 2,在POS5/0/0出现光功率低告警的情形下,客户又将POS11/0/0从IP-TRUNK退出,IP-TRUNK就只有一条POS12/0/0是好的,所以,IP-TRUNK就DOWN了。
5、9:38:52,因IP-TRUNK down,导致LDP SESSION断
6、9:38:55,POS5/0/0变为UP了,由于POS12/0/0也是UP的,所以IP-TRUNK也UP了,HZAR1与HZAR2的isis peer起来了:
 Owing to the alarm message(s), Pos5/0/0 went Up.
 The status of the trunk member turns Up. 
The neighbor of ISIS was changed. 
(IsisProcessId=1, Neighbor=×××××××, InterfaceName=Ip-Trunk2, CurrentState=up, ChangeType=3_WAY_UP)
7、此时(9:38:55),虽然,ISIS邻居起来了,但是LDP SESSION一直是没有起来。
由于UMG与SS之间的交互信令是封装在LDP报文中,导致UMG退服。
8、10:12,POS5/0/0链路DOWN,IP-TRUNK down,isis down
   SLOT=5;The status of trunk member turns down
   The line protoco on the interface ip-trunk has entered DOWN state
    isis down
9、10:13,将POS11/0/0加入ip-trunk中,IP-TRUNK UP, ISIS UP,LDP UP,业务恢复。
    The line protoco on the interface ip-trunk has entered UP state
    isis UP
    LDP SESSION UP
根因
由于HASH算法的问题,ISIS报文HASH到了好的链路POS12/0/0上,HZAR1与HZAR2能正常的建立ISIS邻居关系。
而UMG与SS之间的信令报文,被封装为LDP报文,被HASH到有问题的POS5/0/0链路上,导致LDP SESSION中断,从而导致UMG与SS之间的信令交互中断,导致,UMG退服
建议与总结
在排查链路故障时,请务必将故障链路退出流量转发即先将故障接口shutdown,然后再将接口退出IP-trunk。

END