title

date

MapReduce

MapReduce 简介
- 概念
- 思想
- 特点
- 适用场景
- 不适用场景
MapReduce 原理
Shuffle 详解
- Map 端
- Reduce 端
作业运行模式
- JobTracker/TaskTracker 模式（Hadoop 1.X）
- YARN 模式（Hadoop 2.X）

MapReduce 简介

概念

MapReduce 是一个面向批处理的分布式计算框架。

编程模型：MapReduce 程序被分为 Map（映射）阶段和 Reduce（化简）阶段。

思想

分而治之，并行计算移动计算，而非移动数据

特点

计算跟着数据走
良好的扩展性：计算能力随着节点数增加，近似线性递增
高容错
状态监控
适合海量数据的离线批处理
降低了分布式编程的门槛

适用场景

数据统计，如：网站的 PV、UV 统计
搜索引擎构建索引
海量数据查询

不适用场景

OLAP
- 要求毫秒或秒级返回结果
流计算
- 流计算的输入数据集是动态的，而 MapReduce 是静态的
DAG 计算
- 多个作业存在依赖关系，后一个的输入是前一个的输出，构成有向无环图 DAG
- 每个 MapReduce 作业的输出结果都会落盘，造成大量磁盘 IO，导致性能非常低下

MapReduce 原理

Job & Task（作业与任务）

作业是客户端请求执行的一个工作单元
- 包括输入数据、MapReduce 程序、配置信息
任务是将作业分解后得到的细分工作单元
- 分为 Map 任务和 Reduce 任务

Split（切片）

输入数据被划分成等长的小数据块，称为输入切片（Input Split），简称切片
Split 是逻辑概念，仅包含元数据信息，如：数据的起始位置、长度、所在节点等
每个 Split 交给一个 Map 任务处理，Split 的数量决定 Map 任务的数量
Split 的划分方式由程序设定，Split 与 HDFS Block 没有严格的对应关系
Split 的大小默认等于 Block 大小
Split 越小，负载越均衡，但集群的开销越大

Map 阶段（映射）

由若干 Map 任务组成，任务数量由 Split 数量决定
输入：Split 切片（key-value），输出：中间计算结果（key-value）

Reduce 阶段（化简）

由若干 Reduce 任务组成，任务数量由程序指定
输入：Map 阶段输出的中间结果（key-value），输出：最终结果（key-value）

Shuffle 阶段（洗牌）

Map、Reduce 阶段的中间环节，负责执行 Partition（分区）、Sort（排序）、Spill（溢写）、Merge（合并）、抓取（Fetch）等工作
Partition 决定了 Map 任务输出的每条数据放入哪个分区，交给哪个 Reduce 任务处理
Reduce 任务的数量决定了 Partition 数量
Partition 编号 = Reduce 任务编号 =“key hashcode % reduce task number”
避免和减少 Shuffle 是 MapReduce 程序调优的重点

Shuffle 详解

Map 端

Map 任务将中间结果写入专用内存缓冲区 Buffer（默认 100M），同时进行 Partition 和 Sort（先按“key hashcode % reduce task number”对数据进行分区，分区内再按 key 排序）当 Buffer 的数据量达到阈值（默认 80%）时，将数据溢写（Spill）到磁盘的一个临时文件中，文件内数据先分区后排序 Map 任务结束前，将多个临时文件合并（Merge）为一个 Map 输出文件，文件内数据先分区后排序

Reduce 端

Reduce 任务从多个 Map 输出文件中主动抓取（Fetch）属于自己的分区数据，先写入 Buffer，数据量达到阈值后，溢写到磁盘的一个临时文件中数据抓取完成后，将多个临时文件合并为一个 Reduce 输入文件，文件内数据按 key 排序

作业运行模式

JobTracker/TaskTracker 模式（Hadoop 1.X）

JobTracker 节点（Master）

调度任务在 TaskTracker 上运行
若任务失败，指定新 TaskTracker 重新运行

TaskTracker 节点（Slave）

执行任务，发送进度报告

存在的问题

JobTracker 存在单点故障
JobTracker 负载太重（上限 4000 节点）
JobTracker 缺少对资源的全面管理
TaskTracker 对资源的描述过于简单
源码很难理解

YARN 模式（Hadoop 2.X）

提交作业
查看作业
终止作业

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

MapReduce.md

MapReduce.md

MapReduce

MapReduce 简介

概念

思想

特点

适用场景

不适用场景

MapReduce 原理

Job & Task（作业与任务）

Split（切片）

Map 阶段（映射）

Reduce 阶段（化简）

Shuffle 阶段（洗牌）

Shuffle 详解

Map 端

Reduce 端

作业运行模式

JobTracker/TaskTracker 模式（Hadoop 1.X）

YARN 模式（Hadoop 2.X）

Files

MapReduce.md

Latest commit

History

MapReduce.md

File metadata and controls

MapReduce

MapReduce 简介

概念

思想

特点

适用场景

不适用场景

MapReduce 原理

Job & Task（作业与任务）

Split（切片）

Map 阶段（映射）

Reduce 阶段（化简）

Shuffle 阶段（洗牌）

Shuffle 详解

Map 端

Reduce 端

作业运行模式

JobTracker/TaskTracker 模式（Hadoop 1.X）

YARN 模式（Hadoop 2.X）