某局点fusionCompute portal无法登陆问题处理

发布时间:  2016-03-17 浏览次数:  117 下载次数:  0
问题描述

局点使用fusioncompute,发现portal无法登陆

告警信息

Fusioncompute portal无法登陆,经过分析定位,发现VRM节点的数据库分区drbd0被占满,导致数据库和业务无法正常启动,Portal无法登录。

处理过程

ü  77216点,接到一线客户的问题反馈。

ü  77217点,确认问题现象,drbd数据库打爆。

ü  77220点,给出初步数据库修复方案,由于不能远程,方案存在风险,建议将数据库拷贝回研发进行修复。

ü  773日下午,接收到一线局点的备份数据库信息。

ü  77323点,搭建环境并修复数据库。

ü  774日上午,研发指导一线修复VRM数据库。

根因

VRM虚拟机异常掉电导致数据库损坏,虚拟机监控表异常膨胀,最终数据库打爆,FusionCompute Portal无法登录。

分析过程:

1.         根据 /var/backuplog/galaxenginelog/数据库日志进行经分析, 数据库所在分区在201572日上午被占满。

2.         为什么数据库分区会被占满,我们继续分析数据库日志,发现早在201542523点以后就出现了数据库异常的情况,提示tbl_pm_org_60_pt_201504251530表无法自动删除,异常情况长时间累积就会导致磁盘空间占满,(表tbl_pm_org_60_pt_201504251530 的时间是按照UTC时间生成的,加上时区8的话正好是4252330)

 

3.         为什么出现数据库异常,分析VRM的系统日志,两个VRM虚拟机在20154252347分发生过异常重启,异常重启会概率性导致OS故障和PSQL的数据库损坏,从而引起各种数据库业务异常。

4.         由于VRM所在的主机的日志只能保持一个月,对于4月的日志无法获取,所以目前无法判断VRM异常重启的原因,根据用户反馈,之前应该是出现过机房异常掉电

解决方案

通过研发远程修复VRM 数据库解决,新版本解决了相关问题:

(1)       1、FusionCompute R5版本后,对于数据库同步由drbd组件修改为had组件,可以保证在VRM异常掉电的情况保证数据库完整性。

(2)       2、FusionCompute R5版本后,当数据库分区达到95%后,数据库服务停止,防止因为分区打爆而无法在一线修复。

建议与总结

对于站点进行重启或者关机操作时,请参考产品手册执行安全关闭或者重启操作,防止OS或者数据库故障

END