【运维小能手】固网AAA系统数据库归档日志满导致用户拨号691错误【接入网】

[复制链接]
嘟嘟飞
嘟嘟飞   版主    发表于 2016-8-31 23:44:43   最新回复:2016-09-01 19:28:17

固网AAA系统数据库归档日志满导致用户拨号691错误

【案例摘要】

固网AAA系统节点数据库归档目录被占满引起数据库异常,导致部分地市上报公众宽带用户投诉691错误。702分修改数据库归档目录大小后业务恢复。故障历时147分钟,10000号拦截投诉用户数58例。

1、    问题描述

 201518日凌晨,固网AAA系统oracle数据库的归档日志在长期积累下,超过了归档目录的设定限制100G,导致ORACLE出现归档失败问题,此时ORACLE操作由于无法做归档提交,使得常规操作失败,导致固网的开销户和部分上网业务出现异常。

2、    原因分析

2.1 问题查询

     值班人员反馈称固网AAA系统网管无法打开,无法查询用户详细资料信息。同时登陆Radius服务器查看,发现radius服务器认证日志中大量上报201错误日志。201错误码表示数据库连接异常。

1420670315,t533152003,bc:ab:22:03:01:6e,222.173.224.36,1075847692,slot=2;subslot=0;port=0;vlanid=524;vlanid2=514;,15,,201

1420670315,t532g0654623,00:25:12:72:a7:58,222.173.64.158,51381872,slot=3;subslot=1;port=0;vlanid=1648;,15,,201

1420670315,t534f731008,78:eb:14:50:1a:b3,222.174.32.44,1680347873,slot=3;subslot=0;port=4;vlanid=737;vlanid2=641;,15,,201

1420670315,t539fm5499489,08:10:78:f9:de:3f,222.174.160.29,588464991,slot=1;subslot=0;port=3;vlanid=863;vlanid2=308;,15,,201

1420670315,t533152009,bc:ab:22:09:01:ef,222.173.224.36,1075847692,slot=2;subslot=0;port=0;vlanid=524;vlanid2=514;,15,,201

1420670315,t533152009,bc:ab:22:09:01:ae,222.173.224.36,1075847692,slot=2;subslot=0;port=0;vlanid=524;vlanid2=514;,15,,201

1420670315,a0535fs3080316,b0:48:7a:19:8f:1f,222.173.192.25,555717144,slot=1;subslot=2;port=1;vlanid=536;vlanid2=505;,15,,201

1420670315,^^a05352133529,a8:57:4e:10:0a:35,222.173.192.25,555749641,slot=1;subslot=2;port=1;vlanid=265;vlanid2=513;,15,,201

同时,发现在Radius服务器系统认证日志中,报告线程256错误。说明数据库连接异常。

Thu Jan  8 02:39:25 2015 radiusd_spawn_thread_error:Thread spawn failed.  Maximum number of threads (256) already running.

Thu Jan  8 02:39:25 2015 radiusd_spawn_thread_error:Thread spawn failed.  Maximum number of threads (256) already running.

Thu Jan  8 02:39:25 2015 radiusd_spawn_thread_error:Thread spawn failed.  Maximum number of threads (256) already running.

Thu Jan  8 02:39:25 2015 radiusd_spawn_thread_error:Thread spawn failed.  Maximum number of threads (256) already running.

 2.2 问题定位

出现上述201报错及256线程报错后,初步判断数据库与Radius服务器连接异常。手工连接数据库,出现无法连接的情况,并返回ORA-00257错误,表示归档出现error。此时可判断数据库存在异常。

2.3 问题分析

  通过ORA-00257错误判断,数据库的归档日志存在异常。经与首信研发工程师沟通确认,oracle数据库归档目录已经超过参数限制导致。当前归档日志目录设置大小为100G。前期主备数据库为实现数据同步,启动了OGG功能,OGG需要每天都对日志进行更新,导致日志量过大。

2.4问题解决

    工程师对归档目录进行参数调整,增大目录空间限制,同时清除部分历史归档日志,7:00数据库恢复正常,所有业务同时恢复。

3、    经验总结

本次故障发生在凌晨,影响用户较少,产生的投诉也较少。但本次故障也暴露出以下几个问题:

1、系统告警前转能力不足。系统在凌晨已经上报相关告警,但未前转至综合网管,导致系统未派单。后续解决告警前转问题,做到出现故障及时发现。

2、对系统日志类目前检查及清理不及时。在日常巡检作业计划中增加归档日志目录的检查,并在第三方网管上增加对归档日志目录磁盘空间的监控。同时在全网中涉及表项空间类的的日志监控、清理脚本,确保对所有日志可以监控、自动清理。

3、异地灾备节点未能正常备份。A节点数据库出现异常,灾备节点未能及时承担业务,导致仍然存在投诉问题。需要从根源查找未能灾备的原因。后期经过核查,原因为F5的配置造成,目前已完成整改。

4、系统日常巡检不完善。归档目录建好后,并未及时进行巡检,导致存在隐患没能提前发现。后续需优化巡检策略,要求厂家增加巡检深度与广度。确保后续出现问题及时发现。

社区互动你我他,繁荣和谐靠大家
跳转到指定楼层
tongtong1204
tongtong1204   银牌会员    发表于 2016-9-1 17:57:53

学习了....
眼镜烤鱿鱼
眼镜烤鱿鱼   小试牛刀    发表于 2016-9-1 19:28:17

好详细 感谢分享
快速回复 返回顶部