文章目录
第1章 MapReduce入门1.1 MapReduce定义1.2 MapReduce优缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 MapReduce编程规范1.6 核心流程案例
总结
第1章 MapReduce入门
1.1 MapReduce定义
1.2 MapReduce优缺点
1.3 MapReduce核心思想
1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。
1.4 MapReduce进程
1.5 MapReduce编程规范
用户编写的程序分成三个部分:Mapper、Reducer和Driver。
1.6 核心流程案例
MapReduce的运行流程概述
需求: 统计
/hello目录中每个文件的单词数量,
a
-p开头的单词放入到一个结果文件中,
q
-z开头的单词放入到一个结果文件中。
例如:
/hello
/a
.txt
200M
hello
,hi
,hadoop
hive
,hadoop
,hive
,
zoo
,spark
,wow
zoo
,spark
,wow
...
/hello
/b
.txt
100m
hello
,hi
,hadoop
zoo
,spark
,wow
...
1.Map阶段
(运行MapTask,将一个大的任务切分为若干小任务,处理输出阶段性的结果
)
①切片
(切分数据
)
/hello
/a
.txt
200M
/hello
/b
.txt
100m
默认的切分策略是以文件为单位,以文件的块大小
(128M
)为片大小进行切片!
split0
:/hello
/a
.txt
,0-128M
split1
: /hello
/a
.txt
,128M
-200M
split2
: /hello
/b
.txt
,0M
-100M
②运行MapTask(进程),每个MapTask负责一片数据
split0
:/hello
/a
.txt
,0-128M
--------MapTask1
split1
: /hello
/a
.txt
,128M
-200M
--------MapTask2
split2
: /hello
/b
.txt
,0M
-100M
--------MapTask3
③读取数据阶段
在MR中,所有的数据必须封装为key
-value
MapTask1
,2,3都会初始化一个InputFormat(默认TextInputFormat),每个InputFormat对象负责创建一个
RecordReader(LineRecordReader
)对象,
RecordReader负责从每个切片的数据中读取数据,封装为key
-value
.
LineRecordReader
: 将文件中的每一行封装为一个key(offset)
-value(当前行的内容
)
举例:
hello
,hi
,hadoop
----->(0,hello
,hi
,hadoop
)
hive
,hadoop
,hive
----->(20,hive
,hadoop
,hive
)
zoo
,spark
,wow
----->(30,zoo
,spark
,wow
)
zoo
,spark
,wow
----->(40,zoo
,spark
,wow
)
④进入Mapper的
map()阶段
map()是Map阶段的核心处理逻辑! 单词统计
! map()会循环调用,对输入的每个Key
-value都进行处理!
输入:
(0,hello
,hi
,hadoop
)
输出:
(hello
,1),(hi
,1),(hadoop
,1)
输入:
(20,hive
,hadoop
,hive
)
输出:
(hive
,1),(hadoop
,1),(hive
,1)
输入:
(30,zoo
,spark
,wow
)
输出:
(zoo
,1),(spark
,1),(wow
,1)
输入:
(40,zoo
,spark
,wow
)
输出:
(zoo
,1),(spark
,1),(wow
,1)
⑤目前,我们需要启动两个ReduceTask
,生成两个结果文件,需要将MapTask输出的记录进行分区
(分组,分类
)
在Mapper输出后,调用Partitioner,对Mapper输出的key
-value进行分区,分区后也会排序(默认字典顺序排序)
分区规则: a
-p开头的单词放入到一个区
q
-z开头的单词放入到另一个区
MapTask1
:
0号区:
(hadoop
,1),
(hadoop
,1),
(hello
,1),(hi
,1),(hive
,1),(hive
,1)
1号区:
(spark
,1),(spark
,1),(wow
,1) ,
(wow
,1),(zoo
,1)(zoo
,1)
MapTask2
:
0号区: 。。。
1号区:
...
MapTask3
:
0号区:
(hadoop
,1),(hello
,1),(hi
,1),
1号区:
(spark
,1),(wow
,1),(zoo
,1)
2.Reduce阶段
①copy
ReduceTask启动后,会启动shuffle线程,从MapTask中拷贝相应分区的数据!
ReduceTask1
: 只负责
0号区
将三个MapTask,生成的
0号区数据全部拷贝到ReduceTask所在的机器!
(hadoop
,1),
(hadoop
,1),
(hello
,1),(hi
,1),(hive
,1),(hive
,1)
(hadoop
,1),(hello
,1),(hi
,1),
ReduceTask2
: 只负责
1号区
将三个MapTask,生成的
1号区数据全部拷贝到ReduceTask所在的机器!
(spark
,1),(spark
,1),(wow
,1) ,
(wow
,1),(zoo
,1)(zoo
,1)
(spark
,1),(wow
,1),(zoo
,1)
②sort
ReduceTask1
: 只负责
0号区进行排序:
(hadoop
,1),
(hadoop
,1),
(hadoop
,1),(hello
,1),(hello
,1),(hi
,1),(hi
,1),(hive
,1),(hive
,1)
ReduceTask2
: 只负责
1号区进行排序:
(spark
,1),(spark
,1),(spark
,1),(wow
,1) ,
(wow
,1),(wow
,1),(zoo
,1),(zoo
,1)(zoo
,1)
③reduce
ReduceTask1
---->Reducer
----->reduce(一次读入一组数据
)
何为一组数据: key相同的为一组数据
输入:
(hadoop
,1),
(hadoop
,1),
(hadoop
,1)
输出:
(hadoop
,3)
输入:
(hello
,1),(hello
,1)
输出:
(hello
,2)
输入:
(hi
,1),(hi
,1)
输出:
(hi
,2)
输入:
(hive
,1),(hive
,1)
输出: (hive
,2)
ReduceTask2
---->Reducer
----->reduce(一次读入一组数据
)
输入:
(spark
,1),(spark
,1),(spark
,1)
输出:
(spark
,3)
输入:
(wow
,1) ,
(wow
,1),(wow
,1)
输出:
(wow
,3)
输入:
(zoo
,1),(zoo
,1)(zoo
,1)
输出:
(zoo
,3)
④调用OutPutFormat中的RecordWriter将Reducer输出的记录写出
ReduceTask1
---->OutPutFormat(默认TextOutPutFormat)
------>RecordWriter(LineRecoreWriter)
LineRecoreWriter将一个key
-value以一行写出,key和alue之间使用\t分割
在输出目录中,生成文件part
-r
-0000
hadoop
3
hello
2
hi
2
hive
2
ReduceTask2
---->OutPutFormat(默认TextOutPutFormat)
------>RecordWriter(LineRecoreWriter)
LineRecoreWriter将一个key
-value以一行写出,key和alue之间使用\t分割
在输出目录中,生成文件part
-r
-0001
spark
3
wow
3
zoo
3
总结
MR的核心编程思想
1.概念
Job(作业
) : 一个MR程序称为一个Job
MRAppMaster(MR任务的主节点)
: 一个Job在运行时,会先启动一个进程,这个进程为 MRAppMaster。
负责Job中执行状态的监控,容错,和RM申请资源,提交Task等!
Task(任务
): Task是一个进程!负责某项计算!
Map(Map阶段
): Map是MapReduce程序运行的第一个阶段!
Map阶段的目的是将输入的数据,进行切分。将一个大数据,切分为若干小部分!
切分后,每个部分称为
1片
(split
),每片数据会交给一个Task(进程)进行计算!
Task负责是Map阶段程序的计算,称为MapTask
!
在一个MR程序的Map阶段,会启动N(取决于切片数)个MapTask。每个MapTask是并行运行!
Reduce(Reduce阶段
): Reduce是MapReduce程序运行的第二个阶段
(最后一个阶段
)!
Reduce阶段的目的是将Map阶段,每个MapTask计算后的结果进行合并汇总!得到最终结果!
Reduce阶段是可选的!
Task负责是Reduce阶段程序的计算,称为ReduceTask
!
一个Job可以通过设置,启动N个ReduceTask,这些ReduceTask也是并行运行!
每个ReduceTask最终都会产生一个结果!
2.MapReduce中常用的组件
①Mapper
: map阶段核心的处理逻辑
②Reducer
: reduce阶段核心的处理逻辑
③InputFormat
: 输入格式
MR程序必须指定一个输入目录,一个输出目录!
InputFormat代表输入目录中文件的格式!
如果是普通文件,可以使用FileInputFormat
.
如果是SequeceFile(hadoop提供的一种文件格式),可以使用SequnceFileInputFormat
.
如果处理的数据在数据库中,需要使用DBInputFormat
④RecordReader
: 记录读取器
RecordReader负责从输入格式中,读取数据,读取后封装为一组记录
(k
-v
)!
⑤OutPutFormat
: 输出格式
OutPutFormat代表MR处理后的结果,要以什么样的文件格式写出!
将结果写出到一个普通文件中,可以使用FileOutputFormat!
将结果写出到数据库中,可以使用DBOutPutFormat!
将结果写出到SequeceFile中,可以使用SequnceFileOutputFormat
⑥RecordWriter
: 记录写出器
RecordWriter将处理的结果以什么样的格式,写出到输出文件中!
在MR中数据的流程:
①InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin
-valuein对象
②将封装好的key
-value,交给Mapper
.map()------>将处理的结果写出 keyout
-valueout
③ReduceTask启动Reducer,使用Reducer
.reduce()处理Mapper写出的keyout
-valueout,
④OutPutFormat调用RecordWriter,将Reducer处理后的keyout
-valueout写出到文件
⑦Partitioner
: 分区器
分区器,负责在Mapper将数据写出时,将keyout
-valueout,为每组keyout
-valueout打上标记,进行分区!
目的: 一个ReduceTask只会处理一个分区的数据!
Map阶段
(MapTask
): 切片
(Split
)-----读取数据
(Read
)-------交给Mapper处理
(Map
)------分区和排序
(sort
)
Reduce阶段
(ReduceTask
): 拷贝数据
(copy
)------排序
(sort
)-----合并
(reduce
)-----写出
(write
)