eSight协议模板过多造成自动发现不准确技术案例

发布时间:  2016-06-16 浏览次数:  173 下载次数:  0
问题描述

现网环境:

eSight Network:V300R005C00SPC300版本,现网设备:S2750S9706CiscoDevice

    现网网络部署已稳定,通过自动发现时,部分设备无法正常发现到网管,需要进行多次的发现,而且每次发现上来的设备数量都不一致,且设备通过手工添加的方式均可以正常添加。

    如下截图:连续两次自动发现,当前网管上该网段已添加的设备数量为63台,但是自动发现每次扫描上来的设备数量不一致,且和真实网段设备数量有明显差距。


告警信息

通过网管和设备的日志分析,发现网管侧存在大量SNMP参数错误的日志信息,且设备上存在大量SNMP失败的日志;





处理过程

一、场景分析
    a)现网10.183.131网段设备当前正常添加到网管有62台设备,且这些设备SNMP参数一致,采用相同的SNMP模板;
    b)现网当前网络部署完成,eSight网管设定了自动发现的任务,每天自动发现一次,但每次设备都不全,多次发现时,存在零星设备被自动发现上来,且每次未被发现设备类型和设备数量不固定;
    c)现网10.183.131网段中,删除一台设备“10.183.131.20”后,再次进行自动发现,发现并成功添加唯一一台设备“10.183.131.8”,但是之前删除的20设备未能够自动发现上来;
通过以上场景分析,初步结论如下:
    a)该问题非网管规格和适配问题,所有设备类型和版本,网管均已适配和支持,且均能手工添加成功,非网管适配问题;
    b)现网网络部署完成,网络稳定,且设备重复删除后,重新手工添加均正常,排除现网网络因素;

二、通过告警信息看到,自动发现过程中,存在大量SNMP对接失败记录,有如下怀疑点,具体详情分析需根据抓包分析:
    a)网管SNMP参数加解密错误,导致下发到设备错误
    b)设备SNMP处理过程存在未知错误,或者设备丢包,导致SNMP对接失败

三、抓包分析 :现网进行自动发现,并在发现过程中抓包,对抓包结果进行分析,有如下结论:
    a)网管侧对设备10.183.131.20发送的所有SNMP请求,设备均没有响应;
    b)手工对10.183.131.20设备进行测试和同步,网管和设备间SNMP交互正常;

进一步对抓包文件信息进行分析发现:
    a)现网轮询了多套SNMP模板,抓包信息中,每3个请求为一组,SNMP参数参数一样,轮询失败后,网管服务器会尝试下一组SNMP模板;
    b)网管轮询到正确的SNMP模板时,设备依然无响应;
    c)在自动发现轮询过程中,正常的性能采集请求,设备也不会有响应;
    d)与客户确认,当前网管存在10套SNMP模板;


四:定位结论
    a)eSight网管:由于现网自动发现过程中,采取的是“自动匹配SNMP模板”,且现网SNMP模板数量较多,且模板匹配为随机匹配,直到匹配到正确的或者匹配完所有的模板为止;
    b)设备:设备收到SNMP请求时,如果参数错误,基于网络安全原因,设备会将网管IP锁定一段时间,具体规则为:只要存在连续的错误请求参数,设备会对网管IP进行锁定,锁定对应间隔如下2S、4S、8S、16S… 最多间隔5分钟;
    c)冲突:由于自动发现过程中,通过自动匹配模板方式能快速匹配上正确的SNMP模板随机性较大,且设备存在错误包锁定IP的功能,eSight网管大量的错误SNMP请求,导致设备将网管IP识别为恶意攻击源而将网管IP锁定,当用正常的SNMP参数对接时,由于网管IP被锁定,导致SNMP交互失败,造成设备添加失败;



根因
1.网管添加设备或自动发现过程中,SNMP参数输入存在3种模式:自动匹配SNMP模板、手动选择SNMP模板、手动编辑SNMP参数(自动发现不支持),其中采用自动匹配SNMP模板方式时,网管会轮询现网定义的所有SNMP模板,轮询方式为随机,直到轮询到正确的SNMP参数;
2.设备接收到SNMP请求时,如果SNMP请求参数错误,设备会认定为恶意攻击,会对请求IP实施惩罚性锁定,连续错误请求次数越多,IP锁定时间越长,默认锁定间隔为2S、4S 、8S、16S、32S…… 最多5分钟。
3.由于现网模板太多,导致自动发现对设备轮询过程中,会随机性出现网管IP被设备锁定,造成设备发现失败的现象;

解决方案
了解现网背景,现网不同的区域使用不同的SNMP模板信息,但是同一个网段中,最多只配置了2套不同的SNMP参数,现网操作自动发现时采用手工选择SNMP模板的方式正常发现
建议与总结

eSight上不要创建过多不相关的SNMP模板,如果确实要配置多种模板时,设备自动发现时SNMP不推荐自动适配,建议手工指定。另外SNMP参数正确网络可达场景下,设备添加/自动发现失败常见场景如下,也可关注:
    a)设备MAC地址冲突,或者SNMP V3场景下EngineID重复;
    b)固定设备类型无法发现,需查找对应自动发现扩展点,确认是否适配;
    c)自动发现过程中,网段过大导致ARP包数量过多,由于设备有ARP包速率限制,导致部分设备无法发现(设备会响应对应APR的错误包);


END