系统保障
备份恢复
备份恢复提供了业务数据的备份与恢复能力。
- 在非容灾或CSHA(Cloud Server High Availability,云服务器高可用)场景下,通过备份,可将各业务的数据保存到远程备份服务器上;当业务数据出现异常时,通过恢复,可使用远程备份服务器上的备份文件来进行数据恢复,以保证ManageOne系统的正常运行。
- 在CSDR(Cloud Server Disaster Recovery,云服务器主备容灾)场景下,通过备份,可将生产中心各业务的数据保存到远程备份服务器上;当生产中心发生灾难或故障时,首先需要将ManageOne应用切换到灾备中心上,然后将远程备份服务器上的备份数据恢复到灾备中心数据库,以保证ManageOne系统的正常运行。
相关概念
- SFTP(Secure File Transfer Protocol):安全文件传输协议,一个基于SSHv2(Secure Shell v2)提供安全文件传输的网络协议。
- 全量备份:指对整个系统包括系统文件和应用数据进行完全备份。
- 增量备份:指对前一次备份之后增加和修改的数据进行备份,前一次备份可以是全量备份或者增量备份。在对某个目标进行增量备份前,对该目标必须进行过一次全量备份。
- 容灾:一种降低灾难损失的系统部署方案。对生产中心的重要设备数据和应用软件进行远程备份,当生产中心机器发生灾难或故障时,使用远程备份机器和数据,代替故障机器对业务进行处理。
日志管理
日志分为操作日志和运行日志。操作日志包括租户操作日志和管理侧操作日志,通过查看操作日志帮助管理员了解用户行为,排查系统故障,识别并消除安全威胁。运行日志包括云服务、管理节点、底层设备的运行日志,记录了系统中进程的实时运行情况,方便进行故障定位及处理。详细说明如表7-27所示。
日志分类 |
内容 |
用途 |
---|---|---|
运行日志 |
记录了系统中进程的实时运行情况。底层设备的运行日志需要通过配置FusionCare进行采集。 |
可用于对系统的运行状况进行了解,排障,遭遇安全事件时的问题定位。 |
租户操作日志 |
云服务主动上报的日志,记录了租户的操作行为和操作结果。 |
分析系统故障是否与租户操作行为相关;分析租户操作模式,以改进用户体验;对租户活动和操作指令进行审计。 |
管理侧操作日志 |
记录管理侧用户在系统上执行的操作信息和系统运行状态。 |
了解管理侧用户行为,识别并消除安全威胁,保证系统运行过程信息的可追溯性。 |
相关概念
FusionCare:提供健康检查和信息收集功能的运维工具。健康检查部分能够一键式检查相关节点的健康状态,并生成健康检查报告。信息收集部分能够使技术支持工程师和维护工程师快速收集日志,简化了技术支持工程师和维护工程师的信息收集工作,也方便定位故障。
逻辑结构
运行日志、租户操作日志和管理侧操作日志逻辑结构如图7-43所示。
- ManageOne运维面提供统一日志功能,支持租户操作日志、管理操作日志和运行日志的统一汇聚和查询。
- 租户操作日志是由云服务主动上报,根据界面中提供的租户操作日志信息进行故障定位。
- 从云服务采集上来的运行日志,可在界面中进行搜索和查询。
- 物理设备和管理节点的运行日志,需要跳转至FusionCare工具进行配置、采集和查看。
故障诊断
ManageOne故障诊断特性提供统一的故障诊断入口,支持场景化的故障诊断能力,提升运维效率。
故障诊断特性可以进行租户云服务发放失败、云服务实例操作失败、弹性云服务器网络不通、以及弹性云服务器云硬盘I/O性能问题四个场景的故障诊断。
- 云服务管理面故障诊断用于诊断云服务发放失败和云服务实例操作失败问题。
- 弹性云服务器网络故障诊断用于诊断弹性云服务器在云平台内部的网络不通问题。
- 弹性云服务器存储故障诊断用于诊断弹性云服务器云硬盘的I/O性能问题。
逻辑结构
故障诊断特性提供故障诊断入口,通过查看具体的故障信息,快速诊断故障,提升效率。
故障诊断特性逻辑结构如图7-44所示。
诊断类型 |
说明 |
---|---|
云服务管理面故障诊断 |
通过查看操作日志、集中告警、日志收集等,诊断云服务发放失败和云服务实例操作失败问题。 |
弹性云服务器网络故障诊断 |
通过查看弹性云服务器状态、收集弹性云服务器关联的告警、网络配置、执行断流检测、查看性能监控数据等,诊断弹性云服务器在云平台内部的网络不通问题。 |
弹性云服务器存储故障诊断 |
通过查看弹性云服务器详细信息、收集弹性云服务器关联的告警、云硬盘性能监控数据等,诊断弹性云服务器云硬盘的I/O性能问题。 |