CNA节点更换备件后未打CP2001补丁导致该节点下VM使用异常

发布时间:  2012-12-27 浏览次数:  69 下载次数:  0
问题描述
1、 局点桌面云cloud-****已经遇到10位左右的用户出现如下的问题:
点击小电脑图标后,会弹出正在连接但是不到3秒钟就自动退出了,从VNC可以进去,重启ICA和虚拟机均不起作用,最后只有重装VDA才可以解决。
该VM未装任何软件,放着放着就出问题了,初步判断是桌面云本身的问题。
告警信息
处理过程
1、 因为Galax V1R2C01CP2001和VDesktopV1R2C01SPC202配套使用,并且如果在用户VM封装了wddm驱动的版本情况下,必须要求Galax节点安装到CP2001补丁版本,否则会导致用户安装wddm驱动的VM使用异常;(当然如果用户回滚卸载了wddm驱动也能够规避该问题)
2、 验证局点补丁版本号(具体请参考CP2001补丁升级版本指导书)
验证计算节点版本号
1. 使用“PuTTY”,登录MCNA节点。
1. 执行以下命令。
psh nc cat /boot/grub/menu.lst 2>/dev/null|grep UVP|sed 's/title Xen -- //g'
回显信息为“节点名 :UVP版本号”。UVP版本号显示为“UVP Linux Enterprise Server V100R001C03SPC302”,表示对应计算节点补丁安装成功。
3、 检查发现有一台CNA节点的UVP的补丁版本不正确,如下截图所示:

4、 同时通过用户问题单发现,近期出现问题的VM都是在该节点下,基本判断就是该补丁文件导致:

5、 该节点由于是更换的坏件,由于备件更换指导书里面没有说明备件更换重新加载和下发后需要更新补丁文件导致该问题发生。
根因
1、 因为之前出现改问题的用户一般都能够通过重装VDA解决,但是此次短时间内出现改问题的几率较高。
2、 同时从某一用户现象描述来看,该VM未装任何软件,放着放着就出问题了。措施初步判断可能是该节点没有打CP2001补丁导致。
建议与总结
1、 刷新备件更换指导书,加入补丁探测、实施及检查项。
2、 刷新补丁版本指导书,因为补丁指导书只说明了检查UVP版本和OMM版本,但是没有ESC和CRM的补丁检查,而ESC/CRM的备件更换同样存在上述问题,需要下发配置正常后需要同样刷新补丁文件。和研发确认的查询方式如下,对于补丁版本不正确的节点(尤其注意更换备件重新下发的节点,需要根据补丁指导书实施单节点补丁安装);
对于ESC :

在MCNA上,执行命令“psh 【esc主节点名】  'ls -l /opt/patch/modules/esc/install_flag'|grep install_flag|awk '{print $1 $10}'” (可直接复制执行)

成回显为:
ESC节点名:/opt/patch/modules/esc/install_flag
例如:
psh OMM04_ESC01 'ls -l /opt/patch/modules/esc/install_flag'|grep install_flag|awk '{print $1 $10}'
OMM04_ESC01:/opt/patch/modules/esc/install_flag
ESC补丁在DRBD同步目录上只有主节点可以看到。

对于CRM :
在MCNA上,执行命令“psh 【新扩容的CRM节点列表中间用逗号分开】 'ls -l /opt/patch/modules/crm/installFlag.conf'|grep "installFlag.conf"|awk '{print $1 $10}'”
成回显为:
CRM节点名:/opt/patch/modules/crm/installFlag.conf
例如:如果新扩容的CRM节点为 OMM04_CRM01,OMM04_CRM02,则执行如下命令。
psh OMM04_CRM01,OMM04_CRM02 'ls -l /opt/patch/modules/crm/installFlag.conf'|grep "installFlag.conf"|awk '{print $1 $10}'
OMM04_CRM02:/opt/patch/modules/crm/installFlag.conf
OMM04_CRM01:/opt/patch/modules/crm/installFlag.conf

对于OMS节点
指导书中已有说明:


3、 改进Galax巡检工具,要求能够检查该补丁版本不一致的问题。
4、 建议云计算局点备件更换变更评审方案增加补丁检查和升级操作的步骤。

END