利用DeviceManager收集日志和告警
导出系统数据
为了防止存储系统故障和其他不可预知的灾难对存储系统的危害,并且能了解存储系统的运行状态,定期将系统数据导出,并保存在安全的地方,可以在存储系统出现故障时使用导出的数据定位和分析故障。导出的系统数据包含配置信息、系统日志、硬盘日志和诊断文件。
背景信息
- 系统日志包括存储设备上的配置信息、事件信息和调试日志等信息,可用于分析存储设备的运行状态。导出的系统日志文件类型是*.tgz。
- 配置信息是指系统当前的运行状态数据,反映的是实时的和需要关注的系统配置信息和状态信息,例如用户信息或LUN的配置信息等。导出的配置信息文件类型是*.txt。
- DHA运行日志是指硬盘的日常运行日志,主要包含关于硬盘健康统计的日常采集信息、I/O统计信息和硬盘寿命信息。导出的DHA运行日志文件类型是*.tgz。
- DHA运行日志收集硬盘运行过程的SMART/LogPage(每天凌晨02:00收集1次)、I/O统计(每隔2小时收集1次,每天12次)、硬盘寿命信息(每天凌晨02:00收集1次)等信息,1天生成1个压缩包(大小为1KB),单个控制器上1块硬盘1年最多生成74个压缩包(采集过程会删除部分旧日志包),导出时会依次导出单控每个硬盘的信息压缩包,以及1个基本信息文件。
可以通过CLI研发视图下的change dha policy collect_start_time=?命令修改DHA运行日志收集的启动时间。
- DHA日志的分析过程是对系统内硬盘进行抽样分析,非全量分析,建议日常维护时按照如下表中建议的次数进行导出。
阵列硬盘数量(块)
单次巡检最大导出次数(次)
0~200
3
200~500
4
500~1000
5
1000~2000
6
2000以上
6
- DHA运行日志收集硬盘运行过程的SMART/LogPage(每天凌晨02:00收集1次)、I/O统计(每隔2小时收集1次,每天12次)、硬盘寿命信息(每天凌晨02:00收集1次)等信息,1天生成1个压缩包(大小为1KB),单个控制器上1块硬盘1年最多生成74个压缩包(采集过程会删除部分旧日志包),导出时会依次导出单控每个硬盘的信息压缩包,以及1个基本信息文件。
- HSSD日志是HSSD盘的工作日志,主要包含硬盘的S.M.A.R.T信息和硬盘运行日志。导出的HSSD日志文件类型是*.tgz。
当下载系统日志、DHA运行日志或HSSD日志时,系统首先分别收集不同控制器的日志,并在界面上通过列表显示不同控制器的日志收集情况,收集完成后系统会根据不同控制器分别下载相关日志。
当系统开始收集系统日志、DHA运行日志或HSSD日志时,您需要等待5分钟或将收集完成的日志全部下载后,才可以重新收集并下载其他日志。
- 硬盘数据擦除报告主要包括执行数据擦除的硬盘信息、擦除方式、执行时间和校验结果等。导出的硬盘数据擦除报告文件类型是*.csv。
- 诊断文件主要包含设备的故障信息。导出的诊断文件类型是*.tgz。
操作步骤
- 登录DeviceManager。
- 选择“
> 导出数据”。
- 导出数据。
- 选择“系统日志”,单击“近期日志”或“全部日志”,在弹出的“警告”对话框中勾选“我已阅读上述信息,了解执行此操作带来的后果。”,并单击“确定”。
系统开始收集日志。
- 选择“配置信息”,单击“导出”,在弹出的“警告”对话框中勾选“我已阅读上述信息,了解执行此操作带来的后果。”,并单击“确定”。
导出配置信息。
- 在“硬盘日志”下,单击“DHA运行日志列表”,在弹出的“警告”对话框中勾选“我已阅读上述信息,了解执行此操作带来的后果。”,并单击“确定”。
系统开始收集日志,并展开日志列表。
- 在“硬盘日志”下,单击“HSSD日志列表”,在弹出的“警告”对话框中勾选“我已阅读上述信息,了解执行此操作带来的后果。”,并单击“确定”。
系统开始收集日志,并展开日志列表。
- 在“硬盘日志”下,单击“硬盘数据擦出报告”,在弹出的“警告”对话框中勾选“我已阅读上述信息,了解执行此操作带来的后果。”,并单击“确定”。
系统开始收集报告。
- 在“诊断文件”下,单击“导出”,在弹出的“警告”对话框中勾选“我已阅读上述信息,了解执行此操作带来的后果。”,并单击“确定”。
导出设备的故障信息。
- 在“系统日志”区域,若选择“近期日志”,系统则导出截止到当前时间点的近期日志,该日志包括系统最新的1份上下电日志及最多6份历史messages日志。其中历史messages日志存储于/OSM/coffer_log/log/his_debug目录下,为系统运行过程中产生的日志。若选择“全部日志”,系统则导出当前节点的所有日志。
- 若采用默认设置的Internet Explorer浏览器导出数据,数据保存在用户所选择的下载路径中。以Internet Explorer 9为例,在弹出的文件下载对话框中您可单击“保存 > 另存为”,设置数据的保存路径。
- 若采用默认设置的firefox浏览器导出数据,数据将保存在firefox默认下载路径。您可选择“Tools > Options”,在弹出的“Options”对话框中单击“General > Browser”,查看默认下载路径。
- 若采用默认设置的Google Chrome浏览器导出数据,数据将保存在Google Chrome默认下载路径。您可选择“自定义及控制 Google Chrome > 设置”,在弹出的“设置”页面中的“下载内容”区域,查看默认下载路径。
- 首次使用Chrome浏览器导出数据时,浏览器将弹出“此网站试图下载多个文件,是否允许此操作?”提示,需要您单击“允许”,以便Chrome浏览器可下载多个文件。否则,您需要在Chrome浏览器右上角选择“自定义及控制Chrome > 设置 > 隐私设置 > 内容设置 > 自动下载 > 管理例外情况”中,将对应“禁止的行为”设置为“允许”,单击“完成”,关闭并重新打开当前页面,即可正常下载多个文件;或者将“禁止的行为”删除,单击“完成”,关闭并重新打开当前页面,即可下载多个文件,并且会再次弹出“此网站试图下载多个文件,是否允许此操作?”的设置提示信息。
- 选择“系统日志”,单击“近期日志”或“全部日志”,在弹出的“警告”对话框中勾选“我已阅读上述信息,了解执行此操作带来的后果。”,并单击“确定”。
导出告警和事件信息
告警和事件信息用于保存存储设备在运行过程中自动记录的故障和事件。当存储设备出现故障时,维护人员可以通过查看告警和事件信息来定位和解决故障。
背景信息
维护人员可以通过指定级别和发生时间,选择导出的事件信息。
本文档以在Windows应用服务器上使用IE浏览器为例进行介绍,如果是使用其他的浏览器,请根据实际情况调整相应的操作步骤。
注意事项
存储设备导出的告警和事件信息文件类型为*.xls,请勿更改文件内容。
操作步骤
- 选择“监控 > 告警和事件”
系统进入“告警和事件”页面。
- 保存告警和事件信息。
- 单击“当前告警”或“所有事件”页签,在列表中勾选需要导出的信息。
- “当前告警”中包括“紧急”、“重要”和“警告”三种级别的故障信息。
- 在“当前告警”中执行导出操作,可以选择导出部分或全部告警条目。
- “所有事件”中包括“紧急”、“重要”、“警告”和“提示”四种级别的事件信息,在“当前告警”中的所有告警信息都会导入到“所有事件”中。
- 在“所有事件”中执行导出操作,可以选择导出部分或全部事件条目。
- 如果需要导出特定级别的存储设备故障信息或事件信息,请先设定过滤条件后,再执行导出操作。
- 单击
。
系统弹出“另存为”对话框。选择保存路径,单击“保存”,完成告警和事件信息的保存操作。
- 单击“当前告警”或“所有事件”页签,在列表中勾选需要导出的信息。