【运维小能手】第三方网管下发大量SNMP操作导致MA5680T在U2000脱管

[复制链接]
dhthongbin
dhthongbin   版主    发表于 2016-9-1 20:14:16   最新回复:2016-09-06 11:43:52

问题描述
某局多台MA5680T每天不定时出现U2000网管脱管。中断、恢复相差5分钟左右。
告警信息
U2000侧:网管与设备通信失败。
MA5680T侧:无告警。
处理过程

在U2000按照MA5680T的IP地址过滤抓包。发现在出现问题时,MA5680T对U2000下发的SNMP心跳报文没有响应。此时从网管ping MA5680T、telnet登陆MA5680T均正常。排除U2000网管和网络问题。
在MA5680T镜像上行口抓包,发现出现问题时MA5680T接到了第三方网管的连续3条get操作命令,其中2条为getbulk操作,每条包含10个实例。这条命令是用来获取MA5680T下挂ONT的ETH口的VLAN信息的。经测试,每个ONT需要6S时间响应。20个实例,共需要120s。
而MA5680T对SNMP报文的处理是串行的,即响应完一个命令才会对下个命令处理。因此如果U2000正好在这时下发SNMP心跳,MA5680T在处理完前面的SNMP命令后才会响应U2000。因为响应时间过长,U2000认为MA5680T脱管。
修改第三方网管下发getbulk命令的实例数为1后,问题解决。

根因
U2000网管故障
网络闪断
MA5680T故障
MA5680T繁忙
解决方案
建议与总结
1、第三方网管如下发getbulk命令,不应超过2个实例。如现网存在多个网管,建议不要超过1个。
2、第三方网管应逐条下发的SNMP命令,得到响应后,再下发下一条。
跳转到指定楼层
0868
0868   小试牛刀    发表于 2016-9-1 20:17:24

楼主MA5680T的案例介绍的很好,感谢分享
tongtong1204
tongtong1204   银牌会员    发表于 2016-9-6 11:43:52

感谢分享.......
快速回复 返回顶部