OSPF区域规划不合理导致业务大面积故障案例

发布时间:  2014-09-12 浏览次数:  316 下载次数:  0
问题描述
客户反应某县局,业务全中断,业务可以访问到网关,但到不了市局和省公司。县局的二台核心都有一条链路中断。如图,链路1 和链路2中断了。
告警信息
1、二台县局的核心设备上都有一条上行链路的中断log日志
处理过程
1、应急解决办法,在area 20 建一个vlink
配置如下:
R2与骨干相连
[R2-ospf-1-area-0.0.0.20]vlink-peer 10.0.4.4

[R4-ospf-1-area-0.0.0.20]vlink-peer 10.0.1.1


2、后续找一个业务流量小的时候,进行OSPF区域调整,把市区和县局的核心都规划到area 0里。
根因
1、整个县局业务中断,问题定位在二位核心设备,查看二台设备的上行接口,看接口状态 ,二台设备都有一个上行正常,业务应该可以正常。
<R4>dis interface GigabitEthernet 2/1/1
GigabitEthernet2/1/1 current state : DOWN
Line protocol current state : DOWN
Description:

<R4>dis interface GigabitEthernet 2/1/2
GigabitEthernet0/0/0 current state : UP
Line protocol current state : UP

2、查看二台出口设备,IGP里的OSPF邻居状态,都没有 area 0邻居。故障定位在这。
[R4]dis ospf peer

  OSPF Process 1 with Router ID 10.0.4.4
   Neighbors

Area 0.0.0.40 interface 10.0.124.4(Vlanif21)'s neighbors
Router ID: 10.0.1.1         Address: 10.0.124.1     
   State: Full  Mode:Nbr is  Slave  Priority: 1
   DR: 10.0.124.1  BDR: 10.0.124.4  MTU: 0   
   Dead timer due in 34  sec
   Retrans timer interval: 5
   Neighbor is up for 00:06:56    
   Authentication Sequence: [ 0 ]
建议与总结
1、区域划分时,在骨干设备性能好,节点数量不是太多的情况,要尽量都放到一个骨干area 0里,避免部分链路中断后造成某些区域不能与骨干区域相连

END