【运营商论道】华为专家看过来:移动通信网络监控4.0实践

大道至简
大道至简  Moderator  (2)
6 years 4 months ago  View: 1902  Reply: 1
1F

This post is transferred from "大道至简 ".Click here【to view the original post】

本帖最后由 大道至简 于 2015-12-16 17:32 编辑 摘自 粤移监控不业余 监控室  霍龙浩


1、监控是跨专业的

如果老师要求按照“地球是圆的”这个结构造一个句子,那么,我会说:“监控是跨专业的”。
在2015年监控室务虚会上,Albert同学在台上充满自信而风趣地谈到“我是一名值班长,你不要老问我擅长哪个专业,因为值班长是跨越全专业的。”这样的演说是我最喜欢的,因为它的内容又一次燃起心中那份监控的自豪与激情。长期以来,大家习惯把网管中心内的核维室、互联网室等等统称为“专业室”。但是,忘却了一点——监控才是一个最大的专业。由于监控涉及的范围甚广,自2013年开始,集团公司认为监控的人才无法参与到其它专业的考核认证中,而必须独成门派。因此,有了监控大专业的考核,并且分为“监控-监控”和“监控-投诉”两个子方向。
从2G到4G时代飞速发展历程中,监控人在不断地摸索,也在不断地成长。渐渐地,我们发现无论是涉及跨越中心层面的工作,还是中心内关联多个专业的工作,往往都需要监控牵头。谈到跨专业,需要监控站出来,也应该由监控牵起来。

2、为何需要跨专业关联

在2013年-2014年的集中故障管理推进过程中,全集团的技术线条都感受到了跨专业关联之美。以大家最为熟悉的无线基站退服故障作为例子:
一个退服故障,涉及了“无线—动力—传输”的三网关联,可以根据告警业务逻辑把退服原因分为“市电停电引起”、“传输中断引起”和“主设备故障引起”三种。
在没有进行跨专业关联之前,需要分别向三个专业派发故障工单,但是却在描述同一个故障。那样对待故障,是不负责任的。那样派单给代维,是在浪费公司资源。说得更为严重些,那是在浪费生命。所以,把监控工作描述成“用青春在监控、用生命在派单”,我觉得一点都不为过。既然如此,我们必须对生命给予足够的尊重。我们应该以跨专业关联的思路,把监控工作做得更高效些,也必须做得更简单些。对于有客观关联性的告警逻辑,应该联合处理,实现派单“唯一化”。
其实,我们是可以做到的。通过告警关联和智能预处理的方案,现在已经把所有退服类故障的原因用最精准的语言描述出来,完成监控预处理的神圣任务。

3、跨专业告警关联怎么做

退服故障的多专业原因,只是一个最简单的跨专业例子。广东的网络那么大,移动业务链条那么多,需要部署跨专业关联的地方也很多。
做事情需要章法,做监控的跨专业关联更需要找到关键点。无论多么复杂的告警关联也离不开“特征告警、系统规则、资源数据”的三要素。在这三者中,我认为最重要的资源数据。在各专业的数据模型设计之初,都是相对独立的,没有太多地考虑业务链条上下游网元的关联关系。这就像珠江新城里的几栋大楼,原本是独立的,如果需要从一栋楼走到另一栋楼,是需要横穿地面的斑马线。这种方法的穿梭不是不行,而是有一定的危险。人们希望能安全的穿梭,就想到了在楼宇之接搭建“空中连廊”的方法。对于跨专业告警关联,核心问题就是要解决专业资源之间的空中连廊,把原来相对独立的资源模型,真正的牵起来,把上下游关系梳理清楚。只有这样,我们才能从一个MME出现的“不含用户原因附着成功率低”业务告警,第一步关联上CMNET网元端口的Link down,再一步关联到传输波分系统的LOS。使我们更明确在故障调度过程的沟通对象应该是谁,让我们知道当前抢通传输才是关键。

4、我们期待做得更好

做那么多,一切是为了更清晰。把能关联的关联起来,减少被告警“刷屏”之苦,减少被多张工单“缠绕”的烦恼。除了跨专业告警关联之外,还有跨制式关联(跨越2/3/4G),跨特征关联(跨越设备、性能、信令、拨测告警),我统称为“三跨”。要懂得更多“三跨”的知识,真的需要经验积累,用时间细细体味监控知识之间的关系。这也是监控室领导鼓励新人在多岗位轮岗的原因。
希望在不久的将来,有越来越多的同事一起投入到“三跨”的业务研究中,协助监控4.0时代的推进,一起来感受跨专业关联之美。
唐朝
唐朝  Diamond 
6 years 3 months ago
2F
大道的帖子,专业性很强,理论深度也很深~!
学习了!