C80SPC200安装出错

新人帖[复制链接]
发表于 : 2019-5-15 20:32:57 最新回复:2020-03-06 09:11:49
1149 14
  求助帖: (未解决)
要安装一个开发集群到到3个centos6.8上,单机FusionManager安装后,到install new agent时,只有一个node出错,试过数次不成功。
C80SPC200安装出错-2937127-1
错误信息如下, 求指点。 其他相同的系统没问题啊。
2019-05-15 20:23,013 INFO  [pool-119-thread-1] Last ssh command. host:10.2.20.13, command:if [ -f "{CONTROLLER_HOME}/omsetup.completed" ] && [ $(su - {OMM_USER} -c "{GET_HA_ROLE}") = "active" ]; then echo 'The node is active oms, no need operation.'; else chown {OMM_USER}:{FI_COMMON_GROUP} {BIGDATA_HOME}/common/runtime/security/ -R;fi. com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.execute(SshActionChannelHandler.java:283)
2019-05-15 20:23,171 INFO  [pool-119-thread-1] Last ssh command. host:10.2.20.13, command:{INSTALL_SUDO_PATH} set_sudoers. com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.execute(SshActionChannelHandler.java:283)
2019-05-15 20:23,811 WARN  [pool-119-thread-1] 10.2.20.13: Failed Command execution, Error Message: /var/lib/sudo/Bigdata/sudo/runtime/sudoExecute.sh: line 4537: : No such file or directory
ntp: unrecognized service
/opt/huawei/fi/om-agent_V100R002C80SPC200/nodeagent/setup/plugin/statmon/install.sh: line 109: error: command not found
, Error Code 16 com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.processFail(SshActionChannelHandler.java:619)
2019-05-15 20:23,811 INFO  [pool-119-thread-1] Last ssh command. host:10.2.20.13, command:{NODEAGENT_HOME}/setup/initnode.sh {OM_NODEAGENT_CONTROLLER_IP} {OM_NODEAGENT_NODEID} {CONTROLLER_HOME} {BIGDATA_DATA_HOME} {TOMCAT_HOME} {BIGDATA_LOG_HOME} install "{USE_EXTERNAL_NTP_OMM}" "{BIGDATA_COMMON}". com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.execute(SshActionChannelHandler.java:283)
2019-05-15 20:23,811 ERROR [pool-119-thread-1] Exec ssh command fail. host:10.2.20.13, error:/var/lib/sudo/Bigdata/sudo/runtime/sudoExecute.sh: line 4537: : No such file or directory
ntp: unrecognized service
/opt/huawei/fi/om-agent_V100R002C80SPC200/nodeagent/setup/plugin/statmon/install.sh: line 109: error: command not found


附件: 您需要 登录 才可以下载或查看,没有帐号?注册
  • x
  • 常规:

点评 回复

kitty_kuang
kitty_kuang 发表于 2019-5-24 10:19
您好,若下面回帖可以解答您的问题,请点击回帖右下角“最佳答案”设置,谢谢!  
跳转到指定楼层
forestlzj1
forestlzj1   发表于 2019-5-15 20:36:15 已赞(0) 赞(0)

sudoExecute.sh是存在的
[root@bigdata3 ntp]# ll /var/lib/sudo/Bigdata/sudo/runtime/sudoExecute.sh
-rwx------ 1 root root 361597 May 15 19:55 /var/lib/sudo/Bigdata/sudo/runtime/sudoExecute.sh
  • x
  • 常规:

点评 回复

forestlzj1
forestlzj1   发表于 2019-5-15 21:20:57 已赞(0) 赞(0)

应该是sudoExecute.sh有些地方把centos判断成suse了。然后执行service ntpe而不是service ntpd。
请问/var/lib/sudo/Bigdata/sudo/runtime/sudoExecute.sh 从哪里更新过来的呢? 我试过改动/var/lib/sudo/Bigdata/sudo/runtime/sudoExecute.sh,但每次安装有自动被错误版本覆盖了。
  • x
  • 常规:

点评 回复

forestlzj1
forestlzj1   发表于 2019-5-16 16:07:47 已赞(0) 赞(0)

经过查找,是每次从fusion manager服务器的<install path>/om-server_V100R002C80SPC200/om/packaged-distributables/agent-0.0.1.tar.gz 发到各个节点的

ntp的问题可以ln -s ntpd ntp解决。
  • x
  • 常规:

点评 回复

forestlzj1
forestlzj1   发表于 2019-5-16 19:19:12 已赞(0) 赞(0)

现在有2个节点成功,一个节点老是有问题。。

2019-05-20 14:55,182 INFO  [pool-53-thread-1] Last ssh command. host:10.2.20.13, command:if [ -f "{CONTROLLER_HOME}/omsetup.completed" ] && [ $(su - {OMM_USER} -c "{GET_HA_ROLE}") = "active" ]; then echo
'The node is active oms, no need operation.'; else su - {OMM_USER} -c "{BIGDATA_TMP_DIR}/download.sh {OM_NODEAGENT_CONTROLLER_IP}:{BIGDATA_HOME}/common/runtime/security/config/* {BIGDATA_HOME}/common/runtime
/security/config";fi. com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.execute(SshActionChannelHandler.java:283)
2019-05-20 14:55,243 INFO  [pool-53-thread-1] Last ssh command. host:10.2.20.13, command:if [ -f "{CONTROLLER_HOME}/omsetup.completed" ] && [ $(su - {OMM_USER} -c "{GET_HA_ROLE}") = "active" ]; then echo
'The node is active oms, no need operation.'; else chown {OMM_USER}:{FI_COMMON_GROUP} {BIGDATA_HOME}/common/runtime/security/ -R;fi. com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.e
xecute(SshActionChannelHandler.java:283)
2019-05-20 14:55,394 INFO  [pool-53-thread-1] Last ssh command. host:10.2.20.13, command:{INSTALL_SUDO_PATH} set_sudoers. com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.execute(S
shActionChannelHandler.java:283)
2019-05-20 14:55,651 WARN  [pool-53-thread-1] 10.2.20.13: Failed Command execution, Error Message: , Error Code 16 com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.processFail(SshA
ctionChannelHandler.java:619)
2019-05-20 14:55,651 INFO  [pool-53-thread-1] Last ssh command. host:10.2.20.13, command:{NODEAGENT_HOME}/setup/initnode.sh {OM_NODEAGENT_CONTROLLER_IP} {OM_NODEAGENT_NODEID} {CONTROLLER_HOME} {BIGDATA_DA
TA_HOME} {TOMCAT_HOME} {BIGDATA_LOG_HOME} install "{USE_EXTERNAL_NTP_OMM}" "{BIGDATA_COMMON}". com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.execute(SshActionChannelHandler.java:28
3)
2019-05-20 14:55,651 ERROR [pool-53-thread-1] Exec ssh command fail. host:10.2.20.13, error:. com.huawei.bigdata.om.controller.agent.nodesetup.SshActionChannelHandler.execute(SshActionChannelHandler.java:
286)


  • x
  • 常规:

点评 回复

forestlzj1
forestlzj1   发表于 2019-5-20 19:16:06 已赞(0) 赞(0)

centos 6.8上不知到为何有/usr/lib/systemd/system目录,导致/opt/fi/om-agent_V100R002C80SPC200/nodeagent/setup/plugin/statmon/redhat/setup.sh 出错。改名后该步骤正常了
  • x
  • 常规:

点评 回复

forestlzj1
forestlzj1   发表于 2019-5-20 19:20:23 已赞(0) 赞(0)

但倒数第二步出错了
fi-error10

出错信息:
2019-05-20 18:52,574 INFO  [pool-1-thread-9] Register default user:zookeeper/hadoop for component:ZooKeeper and stack:DEFAULT_STACK. com.huawei.bigdata.om.controller.acs.adapter.AccountHandler.addDefaultUser(AccountHandler.java:684)
com.huawei.bigdata.om.controller.acs.exception.AccountOperException: Register default user:zookeeper/hadoop for component:ZooKeeper and stack:DEFAULT_STACK failed, Cause:The group list must contain a primary group record.
2019-05-20 18:52,852 ERROR [pool-1-thread-9] Error occurred during invoking of Register default accounts..Detailed reason:Register default user:zookeeper/hadoop for component:ZooKeeper and stack:DEFAULT_STACK failed, Cause:The group list must contain a primary group record.. com.huawei.bigdata.om.controller.command.entrypoint.CommandEntryPointFactory.invokeEntryPoints(CommandEntryPointFactory.java:337)
2019-05-20 18:52,852 ERROR [pool-1-thread-9] Error occurred during invoking of Register default accounts..Detailed reason:java.lang.Exception: Register default user:zookeeper/hadoop for component:ZooKeeper and stack:DEFAULT_STACK failed, Cause:The group list must contain a primary group record.. com.huawei.bigdata.om.controller.command.entrypoint.CommandEntryPointFactory.invokeEntryPoints(CommandEntryPointFactory.java:355)


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
  • x
  • 常规:

点评 回复

老帅哥
老帅哥  新锐 发表于 2019-5-21 09:30:01 已赞(0) 赞(0)

手动添加个用户试试看能添加成功吗
  • x
  • 常规:

点评 回复

老帅哥
老帅哥  新锐 发表于 2019-5-21 09:30:20 已赞(0) 赞(0)

在操作系统里执行添加用户的命令
  • x
  • 常规:

点评 回复

forestlzj1
forestlzj1   发表于 2019-5-21 09:31:18 已赞(0) 赞(0)

上面的问题,集群重装后解决。 但到倒数第二步的时候,metadataservice启动出错了
fi-error11

fi-error11-1
但明明有对应的shell script的
fi-error11-2


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
  • x
  • 常规:

点评 回复

12
返回列表
发表回复
您需要登录后才可以回帖 登录 | 注册

警告 内容安全提示:尊敬的用户您好,为了保障您、社区及第三方的合法权益,请勿发布可能给各方带来法律风险的内容,包括但不限于政治敏感内容,涉黄赌毒内容,泄露、侵犯他人商业秘密的内容,侵犯他人商标、版本、专利等知识产权的内容,侵犯个人隐私的内容等。也请勿向他人共享您的账号及密码,通过您的账号执行的所有操作,将视同您本人的行为,由您本人承担操作后果。详情请参看“隐私声明
如果附件按钮无法使用,请将Adobe Flash Player 更新到最新版本!
登录参与交流分享

登录参与交流分享

登录