基本原则
故障定位的基本原则能够帮助用户快速排除无效信息,实现对故障的迅速定位。
故障处理过程中应该遵循以下原则:
- 先定位外部,后定位内部。在进行系统的故障定位时,应该首先排除外部设备的问题。
- 外部设备问题包括光纤、光缆、客户设备和断电等问题。
- 内部问题包括硬盘、控制器、接口模块等故障问题。
- 先分析高级别告警信息,后分析低级别告警信息。在分析告警时,应该按照级别的优先级依次进行分析,如先分析紧急级别的告警,再分析重要和警告级别的告警。
- 先分析共性告警,后分析个别告警。在分析告警时,应先分析是个别问题还是共性问题,确定问题的影响范围。需要确定是一个模块出问题,还是多个模块出现类似问题。
除以上基本原则外,为了提高应急处理的效率,并尽可能的减少故障带来的损失,应急处理还必须遵循以下原则。
- 当出现可能导致数据丢失的情况时,应暂停主机业务或将业务切换至备机并及时对数据进行备份。
- 在进行应急处理的过程中,应完整记录应急过程中的所有操作。
- 应急处理人员必须经过专业的培训,具备相应的技术知识。
- 应急处理过程中应遵循首先恢复核心业务,再恢复其他业务。