作用: 在input文件夹下的文件中,找出符合正则表达式的单词,并存放在output文件夹中
运行命令解释: bin/hadoop hadoop启动命令 jar 以jar包运行方式运行 share/hadoop/mapreduce-examles-2.7.2.jar 这是hadoop官网提供的案例目录 grep 启动grep案例,官方提供的案例非常多,如wordcount模型等 input 输入目录 output 输出目录 'dfs[a-z.]+'正则表达式 表示已dfs开头所有匹配项,可无限累加
执行完前三步后hadoop中多了input和output文件夹 (注意:output文件夹不能先创建,运行命令后自动创建)
查看输出结果 [zhukun@hadoop101 hadoop-2.7.2]$ cat output/*output目录下有两个文件: part-r-00000:存放执行完命令后的结果即符合正则表达式的单词 _SUCCESS:只是一个标识文件表示Grep案例执行成功
在文件中输入如下内容: 保存退出::wq 4. 回到Hadoop目录/opt/module/hadoop-2.7.2 5. 执行程序
[zhukun@hadoop101 hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput作用:统计wcinput文夹中文件(包括该文件夹下所有文件) 文本单词的个数 注意:wcoutput文件夹不能先创,如果原先有的话要先删除 6. 查看结果