BH622V2运行ESXi显示内存告警

发布时间:  2014-09-09 浏览次数:  872 下载次数:  0
问题描述
硬件信息:1.E6000刀片机箱两台;
                     2.BH622V2刀片服务器16台;
                     3.S2600T存储一套(包括1台控制框,2台硬盘框)
                     4.华为交换机s5700一台。

软件信息:vshpere 5.1;

存储组网:典型的双交换冗余组网,详见下图,



告警信息:在刀片的BMC管理界面无任何报警信息,在vcenter 控制界面有9台服务器内存告警。
告警信息
从E6000管理端口看无任何告警信息。

从vcenter界面看到有9台服务器内存警示。

处理过程
1.关闭所有服务器,重新插拔告警服务器内存,开机后部分服务器告警消失,原来没有告警信息的部分服务器出现告警
2.重新登录BMC,仍然没有任何告警信息。
3.与vmware售后技术支持联系,收集vm系统日志并发送邮件
4.与华为售后技术支持联系,收集BMC下的日志并发送邮件
5.华为售后反馈硬件无任何问题
6.查询华为案例库,没有发现类似案例;在vm官网查询大量案例,发现1篇类似案例,可以通过重置传感器来清除硬件状态警告和错误。
7.登录vcenter控制界面,重置传感器,短时间内告警消失,第二天仍有告警提示
8.选择1台有报警提示的主机重新安装ESXi,版本改为5.0,仍有告警
9.在vm系统下关闭内存报警开关,模拟用户业务,所有服务器的cpu、内存使用率都大于60%,测试3天,无任何告警

根因
因为单台服务器配置64GB内存,新部署的系统,用户还没有业务上线,因此不应当是内存容量不足引起的此告警
由于在硬件监控(BMC)界面无任何告警提示,考虑是系统安装不正确或是vmware与华为硬件的兼容性问题或者是vm系统版本bug
解决方案
1.首先在vm系统下重置传感器,详见:http://kb.vmware.com/selfservice/search.do?cmd=displayKC&docType=kc&docTypeID=DT_KB_1_1&externalId=2011531
2.如告警仍不能清除,关闭内存告警开关,做风险测试。

建议与总结
1.平时多浏览官方的案例库可以大大拓宽自己的知识面,在解决实际问题时可以节省很多时间。
2.用户业务上线后,vm售后打电话确认是vsphere 5.x的一个bug。
3.由于当时用户要求在短时间内业务上线,因此做了风险测试。
4.只能通过硬件监控界面来查看内存的状态
5.服务器从2013年年初至今一直稳定运行,没有出现任何问题。

END