IP-Trunk一个成员端口故障引起软交换退服

发布时间:  2009-11-11 浏览次数:  68 下载次数:  0
问题描述
Y运营商H地市AR1、AR2下挂TMG1、3退服,路由器显示从LDP session中断到LDP session恢复,共历时35分钟左右,从软交换获悉TMG退服时间应该相同。
TMG归属关系分析如下:
组网为标准口字型结构,同平面TMG2没有退服,对角线TMG1/3退服。
流量模型如下:
UMG1->YYAR1->YYAR2->XXBR2->XXAR4->XXSS   对角线,不同平面
UMG2->YYAR1->YYAR2->XXBR2->XXAR4->XXSS   相同平面
UMG3->YYAR2->YYAR1->XXBR1->XXAR3->XXSS   对角线,不同平面

1、9:37:38,AR1 pos5/0/0端口down,原因是接收光功率低,需要排查链路;
Sep  5 2009 09:37:38 GDHIZ-BA-IPNET-RT01-NE80E %%01SRM/4/ESFP_RXPOWER_LOW(l): Slot5 PIC0 port0 ESFP RxPower is too low, maybe fiber not plugged.
Sep  5 2009 09:37:38 GDHIZ-BA-IPNET-RT01-NE80E %%01SRM/4/PICP1RXCDRERR(l): Slot5 PIC0 SERDES receive CDR is abnormal, maybe fiber not plugged.
2、9:38:33,在pos 11/0/0接口下 undo ip-trunk 2;
Sep  5 2009 09:38:33 GDHIZ-BA-IPNET-RT01-NE80E %%01SHELL/5/CMDRECORD(l): Record command information.
(Task=vt1, Ip=10.1.224.226, User=lh13802881520, Command="undo ip-trunk 2")
3、由于在ip-trunk2接口下配置了least active-linknumber 2,所以ip-trunk 2接口down;
interface Ip-Trunk2
description TO-[GDHIZ-BA-IPNET-RT02-NE80E]IP-trunk3-3*10G
least active-linknumber 2
Sep  5 2009 09:38:33 GDHIZ-BA-IPNET-RT01-NE80E %%01TRUNK/5/TRUNKDOWN(l): The status of interface Ip-Trunk2 turns Down.
4、9:38:52,与惠州AR2的LDP session断连;
Sep  5 2009 09:38:52 GDHIZ-BA-IPNET-RT01-NE80E %%01LDP/4/HOLDTMREXP(l):
Sessions were deleted because the hello hold timer expired. (PeerId=221.130.209.18)
5、9:38:55,由于P5/0/0恢复,IP-trunk2起来,AR1与惠州AR2的isis peer起来了;
Sep  5 2009 09:38:55 GDHIZ-BA-IPNET-RT01-NE80E %%01TAD/4/IFUP(l):-Slot=5; Owing to the alarm message(s), Pos5/0/0 went Up.
Sep  5 2009 09:38:55 GDHIZ-BA-IPNET-RT01-NE80E %%01TRUNK/5/MEMBER_UP(l): The status of the trunk member turns Up. (TrunkName=Ip-Trunk2, PortName=Pos5/0/0)
Sep  5 2009 09:38:55 GDHIZ-BA-IPNET-RT01-NE80E %%01ISIS/4/ADJ_CHANGE(l): The neighbor of ISIS was changed. 
(IsisProcessId=1, Neighbor=2211.3020.9018, InterfaceName=Ip-Trunk2, CurrentState=up, ChangeType=3_WAY_UP)
6、10:13:16,在pos 11/0/0接口下配置 ip-trunk 2;
Sep  5 2009 10:13:17 GDHIZ-BA-IPNET-RT01-NE80E %%01TRUNK/5/MEMBER_UP(l):-Slot=11; The status of the trunk member turns Up. (TrunkName=Ip-Trunk2, PortName=Pos11/0/0)
Sep  5 2009 10:13:16 GDHIZ-BA-IPNET-RT01-NE80E %%01SHELL/5/CMDRECORD(l): Record command information. (Task=vt1, Ip=10.1.224.226, User=lh13802881520, Command="ip-trunk 2")
7、10:13:23,与惠州AR2的LDP session UP
#Sep  5 10:13:23 2009 GDHIZ-BA-IPNET-RT01-NE80E LDP/4/SessionUp: Session(221.130.209.18:0. public Instance)'s state change to Up
处理过程
主要原因在于AR和BR之间的IP-TRUNK存在多条链路时,出现链路质量的问题或者链路连接问题时,部分协议可能会hash到错误的链路上面,从而影响到业务。由于IP-Trunk不使用附加协议的情况下,无法感知Trunk成员端口丢包的情况。
根因

IP-trunk的一条成员链路出现故障,导致部分协议中断。

解决方案
关闭故障端口,待链路故障处理完成后再加入IP-trunk。
建议与总结
建议:
1、当遇到传输打环测试或者光接口插错的情况下,由于光路正常,所以链路POS告警功能不生效,这时需要配置bfd-for-trunk技术来进行故障感知,具体为每个成员端口运行一个独立的bfd进程,通过bfd状态来判断成员端口的质量,其中bfd的检测时间和倍数可以手动调整。目前现网的NE40E、80E、5000E均可以部署随板BFD。
2、拆除IP-trunk通过POS口的协商功能(LCP和IPCP)能够感知链路的故障,错误连接时协议不会UP,从而避免对其他端口的协议造成影响。

END