【运维小能手】由于突发流量过大导致部分用户无法DHCP拨号

[复制链接]
dhthongbin   版主    发表于 2016-9-2 21:03:39   最新回复:2016-09-06 11:52:17


问题描述

某局点olt的0/6/2 epbd单板下挂64个ont(hg8240e),部分用户dhcp无法拨号,但在上层的交换机上,能捕获到用户拨号的dhcp discovery报文,怀疑dhcp offer报文在olt下行被丢弃。



告警信息





处理过程

1.进入0/6单板透明通道,查看单板调试信息发现2号PON口有队列满丢弃的信息:
dnstream queue 0 of port 2 is full [144]: 00728670

2.然后查看tm disp stat queue 2,看到缓存内确实有间隔性满溢出情况(队列资源有限),判断故障是由于间隔性突发过大(瞬间超过端口流量,导致拥塞丢包)。

songbaiyouzheng_ma5680_01(su)%%tm disp stat queue 2

statistic of queue 0: statistic of queue 1:
total input : 263374 total input : 0
total forward : 263374 total forward : 0
total discard : 666 total discard : 0
total current : 0 total current : 0

statistic of queue 2: statistic of queue 3:
total input : 0 total input : 0
total forward : 0 total forward : 0
total discard : 0 total discard : 0
total current : 0 total current : 0

statistic of queue 4: statistic of queue 5:
total input : 0 total input : 0
total forward : 0 total forward : 0
total discard : 0 total discard : 0
total current : 0 total current : 0

statistic of queue 6: statistic of queue 7:
total input : 0 total input : 0
total forward : 0 total forward : 0
total discard : 0 total discard : 0
total current : 0 total current : 0
3.根据现网service-port流的优先级配置,所有的用户报文都会进入0队列,容易造成0队列瞬时拥塞,此时其他7个队列都没有加以利用,这些队列资源就浪费了。所以采用把其他队列的缓存减少来加大0队列的缓存资源,使其吸收突发的能力加大(这个需要根据实际的队列使用情况来调整buffer大小)。

4.调整队列buffer大小的命令:
byz_ma5680_01(config)#queue-buffer
{ ratio0<0,100> }:50
{ ratio1<0,100> }:5
{ ratio2<0,100> }:5
{ ratio3<0,100> }:5
{ ratio4<0,100> }:5
{ ratio5<0,100> }:5
{ ratio6<0,100> }:20
{ |ratio7<0,100> }:5
command:
queue-buffer 50 5 5 5 5 5 20 5
每个队列的buffer都可以配置,但是总和必须是100。恢复队列默认buffer大小的命令:undo queue-buffer

5.调整数据观察一段时间后问题不在复现。


根因

由于epbd/epbc单板背板口是10ge的接口,而面板口是8个/4个1ge的接口,当瞬时流量过大(单板侧瞬时带宽超过出口带宽1ge),造成队列资源吸收不了这些突发,而被随机丢弃。当dhcp offer被丢弃的时候就会导致用户拨号失败。
建议与总结

查看业务单板上是否存在队列满丢包的方法:

1.su模式下进入单板透明通道
transparent on 0/6
tm disp st pt

2.然后查看打印出来的信息是否有下面的统计:
dnstream queue 0 of port 2 is full ---2是pon端口号

3.如果有队列满的统计再查看端口队列详细统计:
tm disp stat queue 2 ---2是pon端口号
AlisaWei 发表于 2016-12-6 15:57
现在可以通过突发流量检测的方法进行问题定位了,不需要长时间抓包了 
跳转到指定楼层
xunlao   中级会员    发表于 2016-9-2 22:07:36

受益匪浅,支持一下,赞!!!
shanghan8882693   高级会员    发表于 2016-9-2 23:04:30

再来赞一个~
wenhun9620199   高级会员    发表于 2016-9-2 23:23:45

路过学习……
huancai04602   中级会员    发表于 2016-9-2 23:28:50

楼主分享的这个案例很清晰,看完受益很大
AlisaWei   金牌会员    发表于 2016-9-5 10:29:10

案例具有代表性,值得学习
Network Information Dept, Information beyond your imagination
tongtong1204   银牌会员    发表于 2016-9-6 11:52:17

感谢分享 ......
快速回复 返回顶部