简述Wordcount算例。

问题问答题简答题

简述Wordcount算例。

答案

参考答案：

一、自动分割文本。

二、分割后的每一对进行用户定义的map处理，生成新的对。

三、系统自动对输出结果集归拢排序，传给reduce。

四、通过reduce生成最后结果。

3Hadoop执行MR的过程；

1、master节点运行jobTracker实例，接收客户端job请求，一个job是对一个数据集的处理，slave节点运行TaskTracker实例，一个task是一次map或者reduce处理过程。

2、MR程序由一个jar文件和一个xml文件组成，jar包含程序代码，xml包含程序配置操作。

3、客户端设定配置之后，交job，将job数据发送到jobTracker的文件系统中，Mapreduce库会把所输入文件分割成M块，放到不同的datanote上。

4、JobTracker将job放入队列进行调度，并把jar和配置文件放到共享空间。

5、Hadoop有一个机器内进程间操作通信的机制，taskTracker周期性告诉jobTracker工作状态，如果空，job给task分配任务，开一个进程处理。

6、MR程序被传送到各个数据所在的HDFS的datanote上运行，mapper被输送到数据节点上进行计算，中间结果被输送到reducer上进行计算，Reducer将计算结果分布式保存到HDFS。

7、当所有map和reduce任务完成时，master会唤醒用户程序，通知任务完成，再取执行新的任务。