前言:人家研究生都有8天假期,我不配,我学校不比人家好,所以我只能学习(手动微笑)
HA配置如下
namenode:demo01 demo02datanode:demo03 demo04 demo05journalnodedemo03 demo04 demo05zookeeper demo03 demo04 demo05resourcemanagerdemo01 demo02nodemanagerdemo03 demo04 demo05今天遇到的问题:可能是因为之前关闭整个集群的顺序有问题或是操作不当,今天重新开集群的时候步骤是:
demo01:start-all.shdemo02: yarn-damen.sh start resourcemanagerdemo030405: zkServer.sh start结果检查每个端口的jps发现demo01的DFSZKFailoverController没启动,但是02的却启动了,而01的resourcemanager刚刚还有,过一会儿再jps就发现没有了。。。
解决办法:https://www.pianshen.com/article/90721858583/
1、关闭所有进程: stop-all.sh 每个虚拟机上操作一遍下面命令确保关闭 rm -rf /tmp/hsperfdata_* 启动zookeeper: zkServer.sh start 然后格式化:hdfs zkfc -formatZK
然后关闭重启zookeeper 启动集群:start-all.sh
结果:
成功。
于是顺便好好总结一下正确的打开HA集群和关闭集群的方法
[root@demo03]: zkServer.sh start
[root@demo04]: zkServer.sh start [root@demo05]: zkServer.sh start
检查zookeeper状态:zkServer.sh status,一般情况下上一步没报错就没问题在任一namenode上启动start-all.sh在demo02上单独启动resourcemanager,这个可能是我使用版本的小bug:yarn-damen.sh start resourcemanagerjps验证,结果应该是(我此处省略了jps,它不重要):demo01,demo02: NameNode DFSZKFailoverController ResourceManager
demo03,demo04,demo05: DataNode JournalNode QuorumPeerMain NodeManager
明天如果我按此顺序启动成功的话,就谢天谢地。
第二天:验证成功
