RH2288 V2服务器频繁死机导致业务中断

发布时间:  2014-09-04 浏览次数:  249 下载次数:  0
问题描述
客户现网10台RH2288 V2服务器,通过光纤交换机连接后端S2600磁盘阵列,在海康威视业务上线1个月后,频繁出现视频黑屏,无法读写的现象,客户到机房查询之后,发现系统卡死在视频软件界面,业务读写进度条没反应。
告警信息
系统监控软件出现系统内存过高告警
处理过程
第一步:优先查看服务器BMC看是否有告警,及时分析服务器的BMC相关日志,确认服务器自身硬件并没有问题。
第二步:其次查看存储ISM界面是否有告警,若无,收集存储侧相关日志信息,进行进一步分析。
第三步:再次分析网络交换机日志,查看交换机相应信息,发现交换机无异常,端口带宽可以满足正常的需求。
第四步:协调系统工程师分析服务器Windows2008操作系统侧相应日志,发现导致死机的主要原因是海康威视的应用程序。
第五步:协调海康威视相关工程师采集相应的应用软件日志进行分析。提出网络环境差,网络处理速度无法满足应用软件的需求。
第六步:此问题解决方案:
1.增加一条同品牌同型号同大小的内存,以满足应用软件对内存资源的需求。
2.服务器网卡绑定。通过网卡绑定来提高服务器的网络带宽,增强对网络数据的处理能力,从而保证应用软件及客户业务的正常使用。
具体解决步骤:
【服务器侧配置】
1.如图所示,打开博科网卡管理工具,选择Teams选项卡,选择go to team view

2.如图所示,单击Teams,选择Create  Team。

3.如图所示,单击next下一步。

4.键入Team名称,这个可以自定义的。

5.这个选择第二项LACP。如果选择第一项的话,可能出现交换机端口绑定和交换机网卡绑定之间算法或报文或协议等不匹配的情况,这里我们选择第二项。


6.会让你确认网络交换机已经连接到team组成员,而且配置了正确的team type。单击0k



7.然后会出现交换机网卡的列表,在列表中选中你要绑定的成员,单击Add(当然因为我们的现网环境只有两个网卡, 实际中可能遇到其他的有多个网卡成员的情况!)


如图所示,已经将列表中的两个网卡,添加到Team组中来了。
8.这里我们选择跳过管理vlan


9.将这些改变应用于系统,并退出。单击Finish。网卡管理软件操作就完成了。


10.单击网络,点击属性,调出网络连接。可以看到我们创建的Team1已经成功了。


11.配置相应的IP地址。


12.ping测试,ping网关,已经正常工作了。


查看任务管理器,已经为2G了。OK,已经完成。
服务器侧做完配置以后,一定要找客户确认下业务,因为我们的服务器也好,操作系统也好,主要是给客户用的,所以业务正常是我们所有操作的必须保证的。

【交换机侧的配置】
本次涉及的交换机是S5352.
要做绑定的端口为:GigabitEthernet0/0/5 和GigabitEthernet0/0/6
具体配置如下:
interface GigabitEthernet0/0/5
eth-trunk 11
undo ntdp enable
undo ndp enable
#
interface GigabitEthernet0/0/6
eth-trunk 11
undo ntdp enable                        
undo ndp enable
#
interface Eth-Trunk11
port link-type access
port default vlan 101
mode lacp-static     #这个很重要!!!!!!                    
ntdp enable
ndp enable
bpdu enable
#备注:因为是接主机(服务器)的,所以这里配置的是access口。
       为了与服务器端的模式相匹配,我们这里配置的是 mode lacp-static。
[BG-S5352]dis int bri  
PHY: Physical
*down: administratively down
^down: standby
(l): loopback
(s): spoofing
(b): BFD down
(e): ETHOAM down
(d): Dampening Suppressed
InUti/OutUti: input utility/output utility
Interface                   PHY   Protocol InUti OutUti   inErrors  outErrors
Eth-Trunk4                  up    up          0%     0%          0          0
  GigabitEthernet0/1/1      up    up       0.25%    14%          0          0
  GigabitEthernet0/1/2      down  down        0%     0%          0          0
Eth-Trunk11                 up    up          0%     0%          0          0
  GigabitEthernet0/0/5      up    up         43%    23%          0          0
  GigabitEthernet0/0/6      up    up         11%    20%          2          0
Eth-Trunk12                 up    up          0%     0%          0          0
  GigabitEthernet0/0/3      up    up         41%    16%          0          0
  GigabitEthernet0/0/4      up    up         12%    18%          0          0
#查看Eth-trunk端口的使用率。
本次配置已结束,记住一定要和客户确认业务。
根因
由于服务器频繁死机,经过与其他厂家的结合,排查整个集成系统的环境,发现网络环境和内存无法满足,海康威视的应用软件的正常运行。整个运行过程中,网卡的网络利用率会达到99%,内存的利用率也会达到80%以上,由于网络利用率过高,网络环境不好,导致服务器的非页面缓存过高,本来应该写入到S2600存储中的数据,暂时无法通过网络发出,就滞留在内存中,导致内存利用率过高,最终崩溃,由此导致服务器频繁死机。
建议与总结
1.不管是在服务器端的配置还是网络端的配置,修改之后一定记得和客户确认业务是否正常。
2.若客户现场环境比较复杂,涉及到第三方产品时候,要学会配合客户,与第三方合作共同来解决问题。

END