2020.10.5 8天假期均白给之今天遇到的问题：关于正确启动HA集群的步骤

科技2022-08-25 103

前言：人家研究生都有8天假期，我不配，我学校不比人家好，所以我只能学习（手动微笑）

HA配置如下

namenode:demo01 demo02datanode:demo03 demo04 demo05journalnodedemo03 demo04 demo05zookeeper demo03 demo04 demo05resourcemanagerdemo01 demo02nodemanagerdemo03 demo04 demo05

今天遇到的问题：可能是因为之前关闭整个集群的顺序有问题或是操作不当，今天重新开集群的时候步骤是：

demo01：start-all.shdemo02: yarn-damen.sh start resourcemanagerdemo030405: zkServer.sh start

结果检查每个端口的jps发现demo01的DFSZKFailoverController没启动，但是02的却启动了，而01的resourcemanager刚刚还有，过一会儿再jps就发现没有了。。。

解决办法：https://www.pianshen.com/article/90721858583/

1、关闭所有进程: stop-all.sh 每个虚拟机上操作一遍下面命令确保关闭 rm -rf /tmp/hsperfdata_* 启动zookeeper: zkServer.sh start 然后格式化：hdfs zkfc -formatZK

然后关闭重启zookeeper 启动集群：start-all.sh

结果：

成功。

于是顺便好好总结一下正确的打开HA集群和关闭集群的方法

启动

先在03 04 05上启动zookeeper

[root@demo03]: zkServer.sh start

[root@demo04]: zkServer.sh start [root@demo05]: zkServer.sh start

检查zookeeper状态：zkServer.sh status，一般情况下上一步没报错就没问题在任一namenode上启动start-all.sh在demo02上单独启动resourcemanager,这个可能是我使用版本的小bug：yarn-damen.sh start resourcemanagerjps验证，结果应该是（我此处省略了jps，它不重要）：

demo01,demo02: NameNode DFSZKFailoverController ResourceManager

demo03,demo04,demo05: DataNode JournalNode QuorumPeerMain NodeManager

关闭：

demo01:stop-all.shdemo02:yarn-daemon.sh stop resourcemanagerdemo03 04 05：zkServer.sh stop

明天如果我按此顺序启动成功的话，就谢天谢地。

第二天：验证成功

Processed: 0.008, SQL: 9