第三方网管无法管理高端阵列问题

发布时间:  2015-03-23 浏览次数:  184 下载次数:  0
问题描述
客户使用微软第三方网管VMM无法管理OceanStor 18800 V1R1C20 TR5 8控阵列。
告警信息

1) 12月4日到数据中心现场,机柜门监控板红灯亮,8控设备有告警。

2) 登陆SVP后,首先检查告警,使用ISM查看,告警系两条(1)阵列风扇异常;(2)事件条数过多数量达到45160条

处理过程

1) 首先处理告警,再次进行巡检后,确认风扇确实存在硬件故障,事件数目过多的问题则手动清除后未做进一步处理 
2) 观察windows日志,发现操作系统与3日13:33左右自动复位,并在C:\windows\目录下找到了MEMORY.DMP文件,初步判断是操作系统蓝屏重启。
3) 将现场管理软件日志、操作系统日志以及dump文件打包带回进行分析,并在微软建立case跟踪。本地研发于5日当天晚上得到DUMP分析结果,微软官方驱动usbser.sys访问了非法内存或者空指针等情况导致蓝屏重启。
4) 由现场KVM黑屏无法复位情况,结合SVP上只存在KVM这一个微软驱动的USB设备,研发给出初步定位结论:

次日上午11:30,我方得到微软正式答复:
“我们检查了您上传的dump文件, 发现该dump文件已经损坏,我们需要查看的信息全部显示为0. Dump文件的损坏通常与硬件驱动老旧或第三方程序有关。
ChildEBP          RetAddr          
WARNING: Frame IP not in any known module. Following frames may be wrong.
00000000 00000000 0x0
该蓝屏的bug check 为0xD1, 通常0xD1表示内核层面的驱动访问了一个不正确的内存地址空间,从而导致系统蓝屏问题的发生。 ”
针对该问题,微软给出了解决方案未安装驱动补丁,补丁名称和编号分别为:
usbser.sys  KB Article Number (s) : 2990372 
Srv2.sys   KB Article Number (s) : 2831013 

根因
    微软与华为方工程师都给出了基本相同的定位意见。现基本可以确定现场是由于硬件故障触发USB驱动固有缺陷,发生指针越界的情况。导致SVP CPU性能劣化,最终导致SMI-S无法及时响应VMM命令。
解决方案
1、 现场安装微软提供的USB驱动补丁,继续观察8控设备是否仍然存在CPU占用高的问题。
2、 继续定位硬件故障,考虑更换KVM硬件。
建议与总结
1、 本地进行兼容性测试,找出VMM软件与SMI-S超时机制差异并进行改进
2、 审核SVP操作系统更新策略,确保微软重要更新能做在服务器上,并提供现场补丁更新策略。

END