FusionInsight V100R002C60 JDBCserver双备spark提交任务失败

发布时间:  2017-05-29 浏览次数:  131 下载次数:  0
问题描述

用户反映spark服务状态异常,JDBCserver一直处于双备状态,健康状态为恢复中,提交任务会失败


处理过程

1、查看JDBCserver日志,有打印许多提交任务失败的日志的信息,找不到用户组信息


2、FusionInsight集群中的用户管理由LDAP服务管理提供,依赖于操作系统的sssd(redhat),nscd(suse)服务,当sssd异常时就会导致依赖它的服务也会出现问题,用户的建立到同步到sssd服务需要一定时间,如果此时用户没有生效,或者sssd版本存在bug的情况下,某些情况下在主RM节点会出现用户无效的情况,导致任务提交失败,进入主RM检查结果如下,找不到对应的用户



3、尝试停止在启动sssd服务,报如下错误

4、执行ps -ef | group sssd检查sssd相关进行,正常情况只有一个sssd_be --domain default进程,实际上起了4个,说明此时sssd服务不正常,此进程手动清掉后会自动生成。


5、手动执行kill命令清掉这几个进程,在检查又产生一个sssd_be进程,此时重启服务正常



6、检查用户信息恢复正常

7、再检查spark服务也恢复正常,问题解决






根因
操作系统sssd服务异常导致依赖于它的组件异常
解决方案

重启sssd服务,如果能正常重启,重启后能解决;如果不能正常重启,可以kill掉sssd_be进程,再重启sssd服务即可

END