MapReduce入门及核心流程案例

    科技2026-02-15  17

    文章目录

    第1章 MapReduce入门1.1 MapReduce定义1.2 MapReduce优缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 MapReduce编程规范1.6 核心流程案例 总结

    第1章 MapReduce入门

    1.1 MapReduce定义

    1.2 MapReduce优缺点

    1.3 MapReduce核心思想

    1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。

    1.4 MapReduce进程

    1.5 MapReduce编程规范

    用户编写的程序分成三个部分:Mapper、Reducer和Driver。

    1.6 核心流程案例

    MapReduce的运行流程概述 需求: 统计/hello目录中每个文件的单词数量, a-p开头的单词放入到一个结果文件中, q-z开头的单词放入到一个结果文件中。 例如: /hello/a.txt 200M hello,hi,hadoop hive,hadoop,hive, zoo,spark,wow zoo,spark,wow ... /hello/b.txt 100m hello,hi,hadoop zoo,spark,wow ... 1.Map阶段(运行MapTask,将一个大的任务切分为若干小任务,处理输出阶段性的结果) ①切片(切分数据) /hello/a.txt 200M /hello/b.txt 100m 默认的切分策略是以文件为单位,以文件的块大小(128M)为片大小进行切片! split0:/hello/a.txt,0-128M split1: /hello/a.txt,128M-200M split2: /hello/b.txt,0M-100M ②运行MapTask(进程),每个MapTask负责一片数据 split0:/hello/a.txt,0-128M--------MapTask1 split1: /hello/a.txt,128M-200M--------MapTask2 split2: /hello/b.txt,0M-100M--------MapTask3 ③读取数据阶段 在MR中,所有的数据必须封装为key-value MapTask1,2,3都会初始化一个InputFormat(默认TextInputFormat),每个InputFormat对象负责创建一个RecordReader(LineRecordReader)对象, RecordReader负责从每个切片的数据中读取数据,封装为key-value. LineRecordReader: 将文件中的每一行封装为一个key(offset)-value(当前行的内容) 举例: hello,hi,hadoop----->(0,hello,hi,hadoop) hive,hadoop,hive----->(20,hive,hadoop,hive) zoo,spark,wow----->(30,zoo,spark,wow) zoo,spark,wow----->(40,zoo,spark,wow) ④进入Mapper的map()阶段 map()是Map阶段的核心处理逻辑! 单词统计! map()会循环调用,对输入的每个Key-value都进行处理! 输入:(0,hello,hi,hadoop) 输出:(hello,1),(hi,1),(hadoop,1) 输入:(20,hive,hadoop,hive) 输出:(hive,1),(hadoop,1),(hive,1) 输入:(30,zoo,spark,wow) 输出:(zoo,1),(spark,1),(wow,1) 输入:(40,zoo,spark,wow) 输出:(zoo,1),(spark,1),(wow,1) ⑤目前,我们需要启动两个ReduceTask,生成两个结果文件,需要将MapTask输出的记录进行分区(分组,分类) 在Mapper输出后,调用Partitioner,对Mapper输出的key-value进行分区,分区后也会排序(默认字典顺序排序) 分区规则: a-p开头的单词放入到一个区 q-z开头的单词放入到另一个区 MapTask1: 0号区: (hadoop,1)(hadoop,1)(hello,1),(hi,1),(hive,1),(hive,1) 1号区: (spark,1),(spark,1),(wow,1)(wow,1),(zoo,1)(zoo,1) MapTask2: 0号区: 。。。 1号区: ... MapTask3: 0号区: (hadoop,1),(hello,1),(hi,1), 1号区: (spark,1),(wow,1),(zoo,1) 2.Reduce阶段 ①copy ReduceTask启动后,会启动shuffle线程,从MapTask中拷贝相应分区的数据! ReduceTask1: 只负责0号区 将三个MapTask,生成的0号区数据全部拷贝到ReduceTask所在的机器! (hadoop,1)(hadoop,1)(hello,1),(hi,1),(hive,1),(hive,1) (hadoop,1),(hello,1),(hi,1), ReduceTask2: 只负责1号区 将三个MapTask,生成的1号区数据全部拷贝到ReduceTask所在的机器! (spark,1),(spark,1),(wow,1)(wow,1),(zoo,1)(zoo,1) (spark,1),(wow,1),(zoo,1) ②sort ReduceTask1: 只负责0号区进行排序: (hadoop,1)(hadoop,1)(hadoop,1),(hello,1),(hello,1),(hi,1),(hi,1),(hive,1),(hive,1) ReduceTask2: 只负责1号区进行排序: (spark,1),(spark,1),(spark,1),(wow,1)(wow,1),(wow,1),(zoo,1),(zoo,1)(zoo,1) ③reduce ReduceTask1---->Reducer----->reduce(一次读入一组数据) 何为一组数据: key相同的为一组数据 输入: (hadoop,1)(hadoop,1)(hadoop,1) 输出: (hadoop,3) 输入: (hello,1),(hello,1) 输出: (hello,2) 输入: (hi,1),(hi,1) 输出: (hi,2) 输入:(hive,1),(hive,1) 输出: (hive,2) ReduceTask2---->Reducer----->reduce(一次读入一组数据) 输入: (spark,1),(spark,1),(spark,1) 输出: (spark,3) 输入: (wow,1)(wow,1),(wow,1) 输出: (wow,3) 输入:(zoo,1),(zoo,1)(zoo,1) 输出: (zoo,3) ④调用OutPutFormat中的RecordWriter将Reducer输出的记录写出 ReduceTask1---->OutPutFormat(默认TextOutPutFormat)------>RecordWriter(LineRecoreWriter) LineRecoreWriter将一个key-value以一行写出,key和alue之间使用\t分割 在输出目录中,生成文件part-r-0000 hadoop 3 hello 2 hi 2 hive 2 ReduceTask2---->OutPutFormat(默认TextOutPutFormat)------>RecordWriter(LineRecoreWriter) LineRecoreWriter将一个key-value以一行写出,key和alue之间使用\t分割 在输出目录中,生成文件part-r-0001 spark 3 wow 3 zoo 3

    总结

    MR的核心编程思想

    1.概念 Job(作业) : 一个MR程序称为一个Job MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程,这个进程为 MRAppMaster。 负责Job中执行状态的监控,容错,和RM申请资源,提交Task等! Task(任务): Task是一个进程!负责某项计算! Map(Map阶段): Map是MapReduce程序运行的第一个阶段! Map阶段的目的是将输入的数据,进行切分。将一个大数据,切分为若干小部分! 切分后,每个部分称为1(split),每片数据会交给一个Task(进程)进行计算! Task负责是Map阶段程序的计算,称为MapTask! 在一个MR程序的Map阶段,会启动N(取决于切片数)个MapTask。每个MapTask是并行运行! Reduce(Reduce阶段): Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)! Reduce阶段的目的是将Map阶段,每个MapTask计算后的结果进行合并汇总!得到最终结果! Reduce阶段是可选的! Task负责是Reduce阶段程序的计算,称为ReduceTask! 一个Job可以通过设置,启动N个ReduceTask,这些ReduceTask也是并行运行! 每个ReduceTask最终都会产生一个结果! 2.MapReduce中常用的组件 ①Mapper: map阶段核心的处理逻辑 ②Reducer: reduce阶段核心的处理逻辑 ③InputFormat: 输入格式 MR程序必须指定一个输入目录,一个输出目录! InputFormat代表输入目录中文件的格式! 如果是普通文件,可以使用FileInputFormat. 如果是SequeceFile(hadoop提供的一种文件格式),可以使用SequnceFileInputFormat. 如果处理的数据在数据库中,需要使用DBInputFormat ④RecordReader: 记录读取器 RecordReader负责从输入格式中,读取数据,读取后封装为一组记录(k-v)! ⑤OutPutFormat: 输出格式 OutPutFormat代表MR处理后的结果,要以什么样的文件格式写出! 将结果写出到一个普通文件中,可以使用FileOutputFormat! 将结果写出到数据库中,可以使用DBOutPutFormat! 将结果写出到SequeceFile中,可以使用SequnceFileOutputFormat ⑥RecordWriter: 记录写出器 RecordWriter将处理的结果以什么样的格式,写出到输出文件中! 在MR中数据的流程: ①InputFormat调用RecordReader,从输入目录的文件中,读取一组数据,封装为keyin-valuein对象 ②将封装好的key-value,交给Mapper.map()------>将处理的结果写出 keyout-valueout ③ReduceTask启动Reducer,使用Reducer.reduce()处理Mapper写出的keyout-valueout, ④OutPutFormat调用RecordWriter,将Reducer处理后的keyout-valueout写出到文件 ⑦Partitioner: 分区器 分区器,负责在Mapper将数据写出时,将keyout-valueout,为每组keyout-valueout打上标记,进行分区! 目的: 一个ReduceTask只会处理一个分区的数据! Map阶段(MapTask): 切片(Split)-----读取数据(Read)-------交给Mapper处理(Map)------分区和排序(sort) Reduce阶段(ReduceTask): 拷贝数据(copy)------排序(sort)-----合并(reduce)-----写出(write)
    Processed: 0.011, SQL: 9