ME60下挂部分VOIP语音用户续租不成功导致语音业务每隔2个小时就会掉线

发布时间:  2014-12-16 浏览次数:  86 下载次数:  0
问题描述
【Problem Summary】ME60下挂部分VOIP语音用户续租不成功导致语音业务每隔2个小时就会掉线
【Problem Details】某局点OLT设备上行至ME60,该设备下挂的部分FTTH用户语音每隔2小时有规律性中断;中断后语音业务自动恢复,查看FTTH终端用户信息发现中断每隔2个小后其语音IP地址会自动释放并更换为新的IP地址。
处理过程

1、根据故障现象并结合BAS配置的DHCP租期时间为2小时,判断可能是用户的续租报文没有送到到BAS或者BAS收到了但丢弃了续租报文。分别在FTTH终端侧和OLT的上行口近端镜像,验证了续租报文能正常上报至BAS,但没有续租响应,确认报文在BAS侧丢弃。

2、OLT上行四条链路聚合都在ME60的第四槽位,通过查看4槽位的底层丢弃计数,存在因为命中acl导致的deny丢弃。推测DHCP用户上线后的续租报文,是被全局的流策略deny。

3、查看acl 6020,在permit的rule里,没有主机上送的rule,即目的地址是127.0.0.1的rule。

4、经确认BSU单板的业务实现
    1) 用户如果还没有上线,DHCP报文是不会命中ACL,直接上送主机进行处理;
    2) 如果用户已经在线,DHCP的续租报文会先查表项,如果源IP是用户IP,则下一步会匹配ACL;如果源IP不是用户的IP,则不会匹配ACL,直接上送主机处理。

5、综合近端镜像来分析本次故障,BSUA单板接入的DHCP用户,源IP是用户IP的续租报文,被acl 6201 deny了。源IP是0.0.0.0的rebind续租报文,可以正常续租。因此,可以在设备上看到eth-trunk3.47接口下的一部分用户,是正常在线的。一部分用户,频繁的续租失败2小时掉线一次。最终在ACL中增加相应的规则后观察问题解决。

根因
DHCP续租流程如下:用户在1/2租期终端会发送renew报文(源是用户IP,目的IP是地址池网关),如果没有得到响应的话,在7/8租期时还会发送rebind(源是用户IP或0.0.0.0,目的IP是广播255.255.255.255)。
对于BSUA单板(本次故障涉及的单板)接入的DHCP用户,源是用户IP的续租报文,会匹配全局的流策略而被deny,源是0.0.0.0的续租报文可以正常进行主机上送,进而续租成功。
故障局点OLT上行至ME60的4槽位是BSUA单板。VOIP语音用户在全局做了traffic-policy策略,VOIP用户上线后的续租报文由于命中了acl 6021的deny规则,导致被丢弃后,续租不成功。对于BSUF-21/40单板(其他槽位单板)接入的DHCP用户,不受全局流策略的限制,续租报文均可以正常上送主机处理,因此最终故障表现为BSUA单板下部分用户VOIP业务异常。

解决方案
在permit的acl 6020里,增加rule permit ip source user-group itms destination ip-address 127.0.0.1 0。这条规则,可以令BSUA单板接入的用户,报文主机上送成功。对于BSUF-21/40板,则不需进行额外配置。
建议与总结

不同类型单板存在特性差异,故障处理时要多做对比,敏锐分析差异特性可能造成的配置不当而引起业务故障。

END