2020.10.5 8天假期均白给之今天遇到的问题:关于正确启动HA集群的步骤

    科技2022-08-25  103

    前言:人家研究生都有8天假期,我不配,我学校不比人家好,所以我只能学习(手动微笑)

    HA配置如下

    namenode:demo01  demo02datanode:demo03 demo04  demo05journalnodedemo03  demo04  demo05zookeeper demo03 demo04  demo05resourcemanagerdemo01  demo02nodemanagerdemo03 demo04 demo05

    今天遇到的问题:可能是因为之前关闭整个集群的顺序有问题或是操作不当,今天重新开集群的时候步骤是:

    demo01:start-all.shdemo02:  yarn-damen.sh start resourcemanagerdemo030405:  zkServer.sh start

    结果检查每个端口的jps发现demo01的DFSZKFailoverController没启动,但是02的却启动了,而01的resourcemanager刚刚还有,过一会儿再jps就发现没有了。。。

    解决办法:https://www.pianshen.com/article/90721858583/

    1、关闭所有进程: stop-all.sh 每个虚拟机上操作一遍下面命令确保关闭 rm -rf /tmp/hsperfdata_* 启动zookeeper: zkServer.sh start 然后格式化:hdfs zkfc -formatZK

    然后关闭重启zookeeper 启动集群:start-all.sh

    结果:

    成功。

    于是顺便好好总结一下正确的打开HA集群和关闭集群的方法

    启动

    先在03 04 05上启动zookeeper

    [root@demo03]:     zkServer.sh start

    [root@demo04]:     zkServer.sh start      [root@demo05]:     zkServer.sh start

    检查zookeeper状态:zkServer.sh status,一般情况下上一步没报错就没问题在任一namenode上启动start-all.sh在demo02上单独启动resourcemanager,这个可能是我使用版本的小bug:yarn-damen.sh start resourcemanagerjps验证,结果应该是(我此处省略了jps,它不重要):

    demo01,demo02:          NameNode          DFSZKFailoverController          ResourceManager

    demo03,demo04,demo05:          DataNode          JournalNode          QuorumPeerMain          NodeManager

    关闭:

    demo01:stop-all.shdemo02:yarn-daemon.sh stop resourcemanagerdemo03 04 05:zkServer.sh stop

    明天如果我按此顺序启动成功的话,就谢天谢地。


    第二天:验证成功

    Processed: 0.008, SQL: 9