大数据之Hadoop(三)-Hadoop运行模式之本地运行模式(实现官方Grep案例和WordCount案例)

    科技2022-07-20  104

    Hadoop本地运行模式

    1、官方Grep案例

    创建在hadoop-2.7.2文件下面创建一个input文件夹 [zhukun@hadoop101 hadoop-2.7.2]$ mkdir input 将Hadoop的xml配置文件复制到input [zhukun@hadoop101 hadoop-2.7.2]$ cp etc/hadoop/*.xml input

    执行share目录下的MapReduce程序 [zhukun@hadoop101 hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

    作用: 在input文件夹下的文件中,找出符合正则表达式的单词,并存放在output文件夹中

    运行命令解释: bin/hadoop hadoop启动命令 jar 以jar包运行方式运行 share/hadoop/mapreduce-examles-2.7.2.jar 这是hadoop官网提供的案例目录 grep 启动grep案例,官方提供的案例非常多,如wordcount模型等 input 输入目录 output 输出目录 'dfs[a-z.]+'正则表达式 表示已dfs开头所有匹配项,可无限累加

    执行完前三步后hadoop中多了input和output文件夹 (注意:output文件夹不能先创建,运行命令后自动创建)

    查看输出结果 [zhukun@hadoop101 hadoop-2.7.2]$ cat output/*

    output目录下有两个文件: part-r-00000:存放执行完命令后的结果即符合正则表达式的单词 _SUCCESS:只是一个标识文件表示Grep案例执行成功

    2、 官方WordCount案例

    创建在hadoop-2.7.2文件下面创建一个wcinput文件夹 [zhukun@hadoop101 hadoop-2.7.2]$ mkdir wcinput 在wcinput文件下创建一个wc.input文件 [zhukun@hadoop101 hadoop-2.7.2]$ cd wcinput [zhukun@hadoop101 wcinput]$ touch wc.input 编辑wc.input文件 [zhukun@hadoop101 wcinput]$ vim wc.input

    在文件中输入如下内容: 保存退出::wq 4. 回到Hadoop目录/opt/module/hadoop-2.7.2 5. 执行程序

    [zhukun@hadoop101 hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

    作用:统计wcinput文夹中文件(包括该文件夹下所有文件) 文本单词的个数 注意:wcoutput文件夹不能先创,如果原先有的话要先删除 6. 查看结果

    Processed: 0.010, SQL: 8