【运维小能手】温度过高产生误码的案例

无名小卒X
无名小卒X  Diamond  (1)
5 years 7 months ago  View: 3237  Reply: 5
1F

系统概述

某局本地网采用华为OptiX 155/622 SDH光传输系统,组网方式为两纤单向通道保护环,如图所示,业务分配为集中型,即各站均只与1站有业务。



【故障现象】

在设备运行中,1号站到3号站的部分业务出现异常,1号站与3 号站的部分PD1板上报LP-REI告警,并有LPBBELPES性能事件,用误码仪测试告警通道有误码,24号站与1号站的业务正常。


【故障分析及排除】

(1)    3号站相应通道作远端环回,则1号站告警及性能事件依旧;

(2)    再将3号站东向光板作外环回,则1号站告警和性能事件均消失;基本排除了1号站和4号站故障的可能性;

(3)    3号站西向光板作内环回,3号站的PD1板仍告警,由此可以基本定位故障出在3号站。

(4)    携备板赶往3号站,发现第2板位的PD1板有告警,而且单板温度很高,检查发现子架风扇的防尘网严重堵塞,清洗防尘网后,继续观察发现告警及性能事件消失,设备恢复正常。

本次故障的原因是由于3号站机房环境较差,而且维护人员对风扇的清洗不及时导致子架温度过高,使支路板性能劣化从而产生误码。


结论和建议

对于温度问题我们一定要重视,日常维护中要经常清洗风扇并定期从网管上查看设备环境温度,PUM板的温度告警门限设置要在0度~40度,这样设备温度过高网管会上报告警,从而及时采取降温措施。

知识点:若本端上报BBE性能事件,则表示本端接收侧检测到了误码,远端发和本端收之间的通道存在问题。若本端上报FEBBE性能事件,则表示远端接收侧检测到了误码,本端发和远端收之间的通道存在问题。

This article contains more resources

You need to log in to download or view. No account? Register

x
嘟嘟飞
嘟嘟飞  Moderator 
5 years 7 months ago
2F
很详细很完整的处理过程,感谢分享
yy.yc
yy.yc  Senior 
5 years 7 months ago
3F
高温会引起设备性能下降,一定要关注,提前处理。
奕心
奕心  Moderator 
5 years 7 months ago
4F
对于基站的动环监控一定要完善,才能及时发现并判定障碍点,采取处理措施
无名小卒X
无名小卒X  Diamond 
5 years 7 months ago
5F
除了的基站动环监控系统产生的高温告警要关注,对于传输设备本身产生的高温告警,在日常维护中也要及时处理。
LRC
LRC  Diamond 
5 years 7 months ago
6F
温度影响设备性能,进而产生误码影响业务