【运维小能手】几个U2000网管案例分享

[复制链接]
strive_fly   钻石会员    发表于 2016-8-31 20:01:04   最新回复:2016-11-17 10:54:56

网管性能数据库过大导致网管异常退出

*故障现象

某局组网采用华为OptiX传输设备组网,管理的网元数约有150多个,使用工作站RMS网管,维护人员在使用中发现工作站网管运行速度极慢,并经常自动退出。

*原因分析

网管运行速度慢并异常退出,一般跟硬盘可用空间少及各种日志文件过多有关,因此从检查网管中是否有垃圾文件和数据库日志记录的多少检查。

(1) 进入终端窗口,df -k发现硬盘可用空间不多;

(2) 使用find命令查询没有发现大的文件,看来是数据库日志文件过多引起;

(3)使用isql命令进入SYBASE数据库命令行模式,分别查询各类日志文件,发现:perflog中的记录特别多(达到数十万条);

(4) 检查网管发现:部分网元的15分钟、24小时性能事件被设置成自动上报,由于网管长时间没有人员维护导致性能记录累积越来越多。

*解决方法

(1) 打开超级终端,在isql模式下,用:delete from perflog;删除所有性能数据;

(2) 将性能被设置成自动上报的网元更改为:不允许自动上报。

*问题总结

建议将网管的性能监视设置为监视但不自动上报,否则对于15分钟上报的温度、激光器参数等非重要数据日积月累会变成超大性能日志,占用磁盘空间,影响网管的处理速度。

 

 

修改注册表解决华为U2000网管客户端无法打开的问题

*故障现象

U2000客户端安装华为SmartKitInspector软件后,U2000客户端无法打开,windows命令行界面瞬间显示一下即消失。

*原因分析

其他客户端正常登陆,说明U2000服务器没有问题,只是本客户端有问题,重装U2000客户端以后发现故障依旧。U2000客服端采用JAVA程序,其客户端调用windows命令窗口。打开CMD命令,发现CMD命令显示界面和U2000网管故障现象一样,由此判断是windows命令行界面无法显示的问题。

*解决方法

修改注册表H KEY_CURRENT_USER\Software\Policies\Microsoft\Windows\System\  DisableCMD 的值改为:0:开启 1:禁止。

*问题总结

U2000JAVA编程,经常需要调用Windows命令界面,如果安装软件时修改了注册表可能会导致Windows命令界面无法打开,U2000客户端无法调用,所以遇到类似情况时可以考虑修改注册表。 

 

U2000网管查询网元、单板或端口相关路径失败故障处理案例

*故障现象

本地网一U2000网管查询网元、单板或端口相关路径返回操作失败,未影响业务,但影响电路配置、故障定位。

*原因分析

1SDH网络管理进程异常;

2、网管服务器其它进程异常;

3、网管数据库异常。

*解决方法

1、尝试进行全量路径搜索,搜索失败;

2、登录U2000系统监控,发现SDH网络管理进程异常停止,尝试手工启动SDH网络管理进程,启动失败;

3、怀疑U2000服务器进程异常,尝试切换到Veritas系统备节点,切换成功后发现故障现象一致;

4、初步判断数据库异常,查询U2000日志文件进一步确认数据库异常;

5、在U2000系统监控中查看SDH网络管理进程内存占用已达到4G,怀疑和路径、告警数量太大有关系;

6、登录数据库,清空历史告警记录表,再启动SDH网络管理进程,启动成功,内存占用在1G左右;

7、因U2000上告警已超过15万,反转、抑制不必要告警,使告警数量降至5万以内,以减少对数据库内存的占用;

8、观察几天时间,未再出现类似情况,问题解决。

*问题总结

1U2000管理能力与等效网元、路径都有关系,在路径、告警数量都非常大的情况可能影响U2000运行效率、甚至导致数据库、服务器进程异常。

2、对于路径数量无法优化,告警数量(虽然在管理能力内,但仍可能由于闪报告警太多、未及时确认导致超过管理能力)可以通过反转、抑制无效告警等方案减少,既保证U2000运行效率,也利于日常监控。 

 

 

U2000网管服务器异常掉电重启后,客户端出现异常

*故障现象

华为传输网管U2000服务器ACDEF分别与U2000客户端B之间通过MDCN网络进行连接,客户端B为省集中监控网管,某日华为传输网管U2000服务器A因服务器内电源故障,服务器当机;重启服务器并重新登陆U2000后,客户端B发现链接服务器A的客户端双击网元无法打开网元面板,无法同步网元数据。

*原因分析

1、客户端网管软件吊死。 2、客户端B和服务器A之间的MDCN网络故障。3、服务器网管软件故障。

*解决方法

1、因为只是链接服务器AU2000客户端有故障,连接其他4台服务器网管的U2000客户端没有这个故障,估计只是单个客户端有故障,于是退出故障U2000客户端,重新启动U2000客户端登陆,问题依旧存在。 2ping服务器的IP地址,确认能ping通服务器,证明MDCN网络没有问题。

3、核查客户端和服务器的版本,确认两者版本一致,网管用户名也是有效的。

 4、查询服务器的U2000进程是否全部正常启动运行,结果发现告警管理进程没有正常启动,于是采用手动启动,但没有成功。

5、将服务器电脑重启,再启动服务器,检查所有进程,结果发现该进程还是无法正常启动,初步判断是服务器SQL数据库已经损坏。

6、在服务器端重装网管软件,随后启动U2000服务器,待服务器上所有进程全部启动后,让客户端重新远程连接后,确认问题解决。

*问题总结

服务器异常掉电重启后,应检查服务器的进程是否完全启动,对于不能正常启动的进程要及时排查原因。 


说你行你就行不行也行
说不行就不行行也不行
跳转到指定楼层
LRC   钻石会员    发表于 2016-8-31 20:07:08

测试下,看能否回复
--------------------------HCIE NO.3197--------------------------
嘟嘟飞   版主    发表于 2016-8-31 23:50:51

哇哦,一贴多个案例, 感谢分享
社区互动你我他,繁荣和谐靠大家
sunshinzj   银牌会员    发表于 2016-9-1 22:31:26

果断收藏,受益匪浅。
末日浩劫   小试牛刀    发表于 2016-9-2 13:34:47

学习了
tongtong1204   银牌会员    发表于 2016-9-6 11:24:13

感谢分享......
快速回复 返回顶部