一般来讲,在yarn中默认是没有开启Jobhistory服务的,需要自己手动打开。 首先需要在hadoop的etc/hadoop的mapred-site.xml中添加如下内容:
<property> <name>mapreduce.jobhistory.address</name> <value>主机名字:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>主机名字:19888</value> </property>然后还需要在yarn-site.xml中添加
开启服务 <property> <name>yarn.log.aggregation-enable</name> <value>true</value> </property> 至于日志保存时间可以根据情况设置然后重点来了。肯定很多人都是这样 没有开启jobHistoryServer 应该在hadoop的sbinwen文件下手动输入
mr-jobhistory-daemon.sh start historyserver然后我们查看yarn的web端
在window上面想要查看日志跳转,需要设置好集群的ip的用户名。 修改C:\Windows\System32\drivers\etc下的hosts文件,因为直接修改没有权限,因此将修改好的hosts文件保存在桌面,然后覆盖掉原来的文件即可。
加上集群机器的hosts即可
效果就是支持在yarn上查看map 和 reducer运行的时间
总结:最后我们通过查看每个reduce的工作时间判断是否出现数据倾斜的问题,这是很有用的。