VIS6600T双活数据中心灾备链路故障

发布时间:  2014-09-04 浏览次数:  361 下载次数:  0
问题描述
1、 双活数据中心项目组网包括本校区、东校区两地各一套灾备系统(一台双控VIS6600T引擎,一台OceanStor 18500,两台光交,业务主机设计Oracle数据库系统,VMwarer系统,赛门铁克NAS系统等);2、将本地存储LUN划分至主机端进行主机端的IOmeter测试,正常;分别进入两地的光交系统,进行show光交收发光功率,发现在两地之间的光收发功率存储严重的光衰减现场故障。
告警信息
学院本部SNS01的P34口的接收功率接近接收门限和告警值,需要排查一下。
处理过程
1、经过与中国移动公司和用户方的电话、现场沟通,中国移动工程人员过来进行链路检测,确定为移动公司的链路存在问题;2、更换掉存在问题的光纤链路;3、进行两地之间的光纤通讯各项指标检测(时延、光衰减、误码率等),分别进行两地之间的主机端IOmeter测试均在正常范围之内;故障排除;
根因
学院本部SNS01的P34口的接收功率接近接收门限和告警值,需要排查一下。原因分析:1、共四条灾备光纤链路当中,其它三条链路均正常;2、将光衰严重的那条链路替换为其它正常的链路接入原第三条链路的接口模块进行检测,得出主机侧,VIS侧,存储侧,光交侧检测系统的误码率、时延、光衰减等均无问题;3、用排除法初步断定是中国移动提供的光纤链路有问题;
建议与总结
1、双活数据中心项目进行部署建设之前必须严格按照实施文档要求进行兼容性环境的各项测试并通过才能保证后续双活方案的测试及实际运行业务的稳定及效率;2、灾备项目链路的稳定重要性较为突出,链路不稳定对灾备镜像数据的误码率,丢包率等各种异常情况将会十分突出,影响项目建设是否成功;3、有直接现象标明故障点的进行针对性解决,无直接现场的可用故障排除法解决;4、该项目灾备运营商链路只有中国移动一家,通过此次链路故障突显链路重要性后发现若为两家或以上运营商链路形成多家运营商光纤链路的冗余将更为理想;5、另外因用户环境所限无第三方中心仲裁盘进行双活的集群仲裁,虽然后来通过配置也能实现双活高可用项目建设,但是若有第三方中心的仲裁盘将能使得双活平台高可用性更高。

END