前言
如果要对文件中的内容进行统计,大家觉得怎么做呢?一般的思路都是将不同地方的文件数据读取到内存中,最后集中进行统计。如果数据量少还好,但是面对海量数据、大数据的场景这样真的合适吗?不合适的话,那有什么比较好的方式进行计算呢?不急,看完本文给你答案。
分布式计算思想
我们打开思路,既然文件数据遍布在各个节点上,那么我们就不把文件从各个节点加载过来,而是把算法分到各个节点进行计算,最后统一进行合并处理。这就是所谓的分布式计算。
分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。
整个思想的核心就是“先分再合,分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,然后把各部分的结果组成整个问题的最终结果。
那么 Hadoop 也借鉴了这样的思想,设计出了 MapReduce 计算框架。那么 MapReduce 框架具体设计上有什么亮点呢?
MapReduce 设计思想
Hadoop 在设计 MapReduce 的时候,吸取了分布式计算中分而治之的思想,同时需要考虑更多细节的问题。
(1)如何对付大数据处理场景
对相互间不具有计算依赖关系的大数据计算任务,实现并行最自然的办法就是采取 MapReduce 分而治之的策略。
首先 Map 阶段进行拆分,把大数据拆分成若干份小数据,多个程序同时并行计算产生中间结果;然后是 Reduce 聚
合阶段,通过程序对并行的结果进行最终的汇总计算,得出最终的结果。
不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算。
(2)构建抽象编程模型
MapReduce 借鉴了函数式语言中的思想,用 Map 和 Reduce 两个函数提供了高层的并行编程抽象模型。
map: 对一组数据元素进行某种重复式的处理;
reduce: 对 Map 的中间结果进行某种进一步的结果整理。
MapReduce 中定义了如下的 Map 和 Reduce 两个抽象的编程接口,由用户去编程实现:
map: (k1; v1) → (k2; v2)
reduce: (k2; [v2]) → (k3; v3)
通过以上两个编程接口,大家可以看出MapReduce
处理的数据类型是<key,value>
键值对。
(3)统一架构、隐藏底层细节
如何提供统一的计算框架,如果没有统一封装底层细节,那么程序员则需要考虑诸如数据存储、划分、分发、结果
收集、错误恢复等诸多细节;为此,MapReduce 设计并提供了统一的计算框架,为程序员隐藏了绝大多数系统层
面的处理细节。
MapReduce 最大的亮点在于通过抽象模型和计算框架把需要做什么(what need to do)
与具体怎么做(how to do)
分开了,为程序员提供一个抽象和高层的编程接口和框架。
程序员仅需要关心其应用层的具体计算问题,仅需编写少量的处理应用本身计算问题的业务程序代码。
至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理: 从分布代码的执行,到大到数千小到单个节点集群的自动调度使用。
MapReduce 介绍
Hadoop MapReduce
是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多 TB 数据集)。
MapReduce 是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。
MapReduce 特点
易于编程
Mapreduce 框架提供了用于二次开发的接口;简单地实现一些接口,就可以完成一个分布式程序。任务计算交给计算框架去处理,将分布式程序部署到 hadoop 集群上运行,集群节点可以扩展到成百上千个等。
良好的扩展性
当计算机资源不能得到满足的时候,可以通过增加机器来扩展它的计算能力。基于 MapReduce 的分布式计算得特点可以随节点数目增长保持近似于线性的增长,这个特点是 MapReduce 处理海量数据的关键,通过将计算节点增至几百或者几千可以很容易地处理数百 TB 甚至 PB 级别的离线数据。
高容错性
Hadoop 集群是分布式搭建和部署得,任何单一机器节点宕机了,它可以把上面的计算任务转移到另一个节点上运行,不影响整个作业任务得完成,过程完全是由 Hadoop 内部完成的。
适合海量数据的离线处理
可以处理 GB、TB 和 PB 级别得数据量。
MapReduce 局限性
MapReduce 虽然有很多的优势,也有相对得局限性,局限性不代表不能做,而是在有些场景下实现的效果比较差,并不适合用 MapReduce 来处理,主要表现在以下结果方面:
实时计算性能差
MapReduce 主要应用于离线作业,无法作到秒级或者是亚秒级得数据响应。
不能进行流式计算
流式计算特点是数据是源源不断得计算,并且数据是动态的;而 MapReduce 作为一个离线计算框架,主要是针对静态数据集得,数据是不能动态变化得。
MapReduce 实战
WordCount
算是大数据计算领域经典的入门案例,相当于 Hello World。主要是统计指定文件中,每个单词出现的总次数。
虽然 WordCount 业务极其简单,但是希望能够通过案例感受背后 MapReduce 的执行流程和默认的行为机制,这才是关键。
Map 阶段代码实现
实现了 map 接口,把输入的数据经过切割,全部标记 1,因此输出就是<单词,1>。
Reduce 阶段代码实现
实现了 reduce 接口,对所有的 1 进行累加求和,就是单词的总次数
启动代码
可以参考官方例子:https://github.com/apache/hadoop/blob/branch-3.3.0/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WordCount.java
运行
hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount
/input /output
复制代码
第一个参数:wordcount 表示执行单词统计任务;
第二个参数:指定输入文件的路径;
第三个参数:指定输出结果的路径(该路径不能已存在)
查看运行结果
最终可以在/output 目录下看到输出的结果
MapReduce 执行流程
从资源运行层面,一个完整的 MapReduce 程序在分布式运行时有三类程序,如下所示:
MRAppMaster
:负责整个 MR 程序的过程调度及状态协调
MapTask
:负责 map 阶段的整个数据处理流程
ReduceTask
:负责 reduce 阶段的整个数据处理流程
MapReduce 任务优先会提交到 Yarn 组件上,这个主要是用来管理资源的,因为计算需要 CPU、内存等资源。首先会运行 1 个MRAppMaster
程序,主要负责整个 MR 程序的过程调度及状态协调。然后运行多个MapTask
,最后运行ReduceTask
。
从业务逻辑层面上,以上面的 wordCount 为例,它的运行流程如下图所示:
Map 阶段执行流程
第一阶段:把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片规划。默认Split size = Block size(128M)
,每一个切片由一个MapTask
处理。
第二阶段:对切片中的数据按照一定的规则读取解析返回<key,value>
对。默认是按行读取数据。key 是每一行的起始位置偏移量,value 是本行的文本内容。
第三阶段:调用 Mapper 类中的 map 方法处理数据。每读取解析出来的一个<key,value>
,调用一次 map 方法。
第四阶段:按照一定的规则对 Map 输出的键值对进行分区 partition。默认不分区,因为只有一个reducetask
。分区的数量就是 reducetask 运行的数量。
第五阶段:Map 输出数据写入内存缓冲区,达到比例溢出到磁盘上。溢出 spill 的时候根据 key 进行排序 sort。默认根据 key 字典序排序。
第六阶段:对所有溢出文件进行最终的 merge 合并,成为一个文件。
Reduce 阶段执行过程
第一阶段:ReduceTask 会主动从 MapTask 复制拉取属于需要自己处理的数据。
第二阶段:把拉取来数据,全部进行合并 merge,即把分散的数据合并成一个大的数据。再对合并后的数据排序。
第三阶段是对排序后的键值对调用 reduce 方法。键相等的键值对调用一次 reduce 方法。最后把这些输出的键值对写入到 HDFS 文件中。
shuffle 阶段
Shuffle
的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。
而在 MapReduce 中,Shuffle 更像是洗牌的逆过程,指的是将 map 端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便 reduce 端接收处理。
一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。
以上就是整个 MapReduce 执行的整个流程。
总结
MapReduce 是 Hadoop 提供的一个分布式计算框架,对于大数据开发人员来说,只要关注于自己的业务,实现他们提供的 Map 和 Reduce 接口,接下来底层都交给 Hadoop 来处理。但是 MapReduce 已经日薄西山,企业用的也越来越少了,慢慢被 Spark、Flink 等计算引擎代替,主要原因还是太慢,比如 shuffle 阶段中频繁涉及到数据在内存、磁盘之间的多次往复,但是这种计算思想还是很值得一学的。