无图

标题(公告):  1月19日网络故障总结

简介:作为一名网工,想必大家都应该知道 ,上下班时间无固定这一说法,是所有职业中个人觉得是比较辛苦和基层的职业,不过 个人做的开心最为重要,正所谓世上职业千万种,看你喜好哪一种,哈哈……

类别:新闻 || 点击量:497

正文:

本文主要讲解个人的一些故障处理方法及微薄经验:

一、故障前期

   1、 2018年1月19日 下午 3:50分左右发现公司A交换机有异常日志告警,如下图:

查阅了下资料,是MAC计数器产生的日志告警,起初没怎么在意,认为就是设备中路由由于ARP表周期性刷新导致的,(之前也没遇见过这种问题)。

    2、通过zabbix监控到A设备的客户流量出现很大的异常情况,出流量突然异常的达到800G(疯了吧!平常平均流量只是几十兆的,突然500G),如下图:

后来我排查了下监控日志,并不是zabbix监控本身问题,是因为交换机板卡取值点产生了误差及延迟导致的,那么又是为什么会有异常延迟呢?等等这些看似并没有令人注意的问题,其实正是故障发生前提的征兆。

二、故障发生:

    正是前期的预兆,预计着故障的产生,就在4点45分左右时,又一条A交换机设备的日志产生了:

板卡显示disable了,啊啊啊啊……顺次客户的Vlan 及 物理端口也随之Down的日志产生了。。。随之……擦擦,被无数个电话爆破了。。。但此时要淡定,不能被电话炮轰而乱了头脑(当然,当时我是乱了头脑)。

三、故障处理过程:

    好了,下面讲讲整个的处理过程及后期的思考补充……

    1、方案一:整理故障板卡的客户配置,做好故障卡配置,转移到A设备其他相同板,当然这种是第一该想的应急方案,但是现实不允许,,A交换机,只有一个电口板子,顺次,在同时,告知小伙伴到仓库找备件板,果然仓库没找到,后来在其他设备上临时借用了下,最终业务恢复(论:仓库备件的重要性,一定要周期性的去核查备件)。

    2、方案二:当然这是在方案一完成不了的情况下可使用的,就是在A设备同一层面级别,而且位置不远的,可临时借用一台交换机作为中接点把A设备中客户的配置移植到B设备上,客户连接到中接点交换机可缓解一时。

    3、方案三:当方案一和二在条件中都不允许的情况下可使用,当然这种最为费时,一般也用不到,就是上报吧!坐着啥也别干,等着厂家备件寄到再干,开个玩笑,不过如果真的是这样的话,我们确实无能为力,一般也不会有这种情况,好了,结束了……一个网工菜鸟的一些故障总结。


补充:1、建议在规划网络结构时,在资金允许的情况下,重要的链路都要做好备份;

          2、对一块板卡(或无板卡的网络设备)的设备上的客户,前期要做好链路备份及数据备份,对于出现故障能够快时间的切到好的设备上,来报障业务的稳定性。


发布人:admin || 发布时间:2018-01-20 11:09