本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>
发布时间: 2020-09-06 | 浏览次数: 648 | 下载次数: 0 | 作者: lWX606033 | 文档编号: EKB1100054933
用户上层软件需要使用到看门狗业务,看门狗需要设置120S的延迟。每到120S,服务器就会重启,收集日志需要分析原因
查看sel日志有SMS/OS阶段的看门狗超时,解决建议登录操作系统,检查开启看门狗的软件是否存在故障或软件挂死现象。
2、查看BIOS参数配置发现BIOS选项看到看门狗开关没有开启参与。
3、操作日志有记录看门狗计时器持续重置大约60S-120S一次的正常喂狗。
4、查看在UTC时间2020-08-06 02:40:13前后有看门狗超时,导致系统下电的动作。
5、查看北京时间(UTC+8)的2020-08-06 10:40:13前后有etcd服务长时间打印controller01 etcd: invalid auth token的关键字,疑为etcd服务(或者其他软件)内部发生软锁死导致系统长时间没响应喂狗,时间介于Aug 6 10:39:43到Aug 6 13:08:21记录有断层大于看门狗计时器重置时间,导致看门狗饿死系统下电。
6、同时系统下/var/crash/目录有vmcore-dmesg的crash日志生成,集中于8月6号和7号,建议OS厂商投入分析定位。
综上:
1)看门狗软件的超时时间为120S,系统内部有软件锁死导致没有及时喂狗,系统下电。
2)当前看门狗软件超时发生在系统阶段,建议登录操作系统,检查开启看门狗的软件是否存在故障或软件挂死现象。
3)未发现硬件指向的问题,同时需要OS厂商分析产生的crash文件,定界是否有故障指向服务器硬件方面,华为倾力配合定位。临时解决方案建议将看门狗软件关闭或者设置超时下电的时间间隔长一些。
根据bmc获取电源模块状态的关系,当前电源模块告警问题初步判断为误告警,此告警不会影响电源模块的工作,实际未产生电源模块丢失以及输入电压高问题。在概率场景下电源模块内对应寄存器值通过I2C链路上报信息时出现信息值异常,导致BMC误检测到电源模块异常。后续bmc版本优化了电源状态信息的检测机制
此告警不会影响电源模块的工作,当前电源模块告警问题为误告警,优化版本为bmc5.70