摘要:大家好,我是 “极客运维社”的飞哥,点击右上方“关注”,每天和大家分享 关于 网络设备及系统和企业组网 方面干货。码字不易,如果您觉得文章还可以,就点赞+关注+收藏吧,也许在以后某个时间能够用得到。
大家好,我是 “极客运维社”的飞哥,点击右上方“关注”,每天和大家分享 关于 网络设备及系统和企业组网 方面干货。码字不易,如果您觉得文章还可以,就点赞+关注+收藏吧,也许在以后某个时间能够用得到。
凌晨1点15分,值班手机炸了
“王工!财务部所有电脑断网,公司内部ERP系统和SVN 全瘫了!”电话那头的声音带着哭腔。我猛地从床上爬起来,拿起笔记本就往公司冲——这已经是半个月内第三次了!前两次都是临时重启交换机应付过去,但这次得必须彻底根治了。
到公司机房时,几个部门的负责人已经堵在门口。财务总监肖总扯着嗓子喊:“今天不解决,明天就得加班补数据!”我抹了把汗,心里暗骂:凌晨1点,你财务加什么班吗?这破网络,迟早要背锅离职!
一、故障现象:全网瘫痪的诡异循环
核心交换机端口抽风:GE1/0/1~GE1/0/8每隔5分钟Down一次,日志里全是%LINEPROTO-5-UPDOWN告警。
每次Down机持续30秒,恰好够触发业务系统超时中断。
VLAN内互访异常:财务部(VLAN 10)与仓储部(VLAN 20)本应互通,但跨VLAN Ping丢包率高达80%。
更诡异的是:同VLAN内设备ARP表项频繁丢失!
二、血泪排查:从物理层到协议层的过山车
第一阶段:以为是光模块闹鬼
暴力三板斧:换网线、换光模块、清端口计数器——故障依旧。
display transceiver diagnosis显示收光功率-12dBm(正常!),电压3.3V(正常!)。
误入歧途:技术总监坚持“硬件故障论”,要求更换板卡。结果新板卡上架后,端口Down得更频繁了!
教训:别让领导指挥技术排查!
第二阶段:VLAN配置的致命陷阱
揪出Hybrid模式骚操作:执行display port vlan时,发现GE1/0/1~8全被配置为Hybrid模式:
Interface PVID VLAN List GigabitEthernet1/0/1 10 tagged: 10,20问题来了:对端接入交换机是华为S5720,只认Trunk/Access模式!
报文转发的死亡循环:Hybrid口发送VLAN 10报文时携带Tag,但S5720的Access口收到Tagged报文直接丢弃。
触发MAC地址表震荡,核心交换机误判环路,启动Error-Down保护!
真相大白:VLAN配置模式冲突才是元凶!
三、极限抢救:凌晨4点的配置对决
第一步:紧急恢复业务
强制切回Trunk模式:interface GigabitEthernet1/0/1 port link-type trunk port trunk allow-pass vlan 10 20 清除Error-Down状态:shutdown undo shutdown第二步:根治MAC地址漂移
1.开启环路检测:
loopback-detection enable loopback-detection interval-time 302.精准定位非法接入点:
display mac-address flapping显示市场部某IP电话MAC在GE1/0/3和GE2/0/7间反复横跳。
冲过去一看——新来的实习生用分线器私接了两台设备!
四、深度复盘:VLAN配置的三大潜规则
规则1:模式混用等于自杀
华为设备互联铁律:
核心层用Trunk,接入层用Access,Hybrid模式非必要不启用!
多厂商组网时,务必用display interface查看对端端口类型。
规则2:Error-Down保护是双刃剑
高危配置:
error-down auto-recovery cause bpdu-protection interval 300 # 自动恢复时间设太短会反复震荡!推荐方案: 结合loopback-detection和mac-address flapping检测,先告警再Shutdown。
规则3:端口描述是保命符
反面教材:
interface GigabitEthernet1/0/1 description to_Switch 接口 GigabitEthernet1/0/1正确姿势:
description To_S5720-ACCESS_TRUNK_VLAN10-20 # 模式+VLAN全写明!五、运维军规:从此告别端口抽风
变更前抓包验证:port-mirroring to observe-port both # 任何配置改动前先镜像抓包!2.配置差异对比工具:
使用华为eSight的配置合规检查功能,自动对比基线配置。
3.新人杀手锏:
禁用交换机USB口,防止实习生乱插配置线(别问我怎么想到的)。
后记
第二天早上8点,财务部系统恢复运转。同事递来一杯咖啡:“王工,你这黑眼圈......”我苦笑——搞网络的谁不是一边骂娘一边填坑?
作者简介
我是“极客运维社”飞哥,系统运维工程师一枚,持续分享【网络技术+系统运维技术】干货。码字不易,如果您觉得文章还可以,就关注+收藏吧,也许在以后某个时间能够用得到。
来源:极客运维社