问题 问答题 简答题

简述Wordcount算例。

答案

参考答案:

一、自动分割文本。

二、分割后的每一对进行用户定义的map处理,生成新的对。

三、系统自动对输出结果集归拢排序,传给reduce。

四、通过reduce生成最后结果。

3Hadoop执行MR的过程;

1、master节点运行jobTracker实例,接收客户端job请求,一个job是对一个数据集的处理,slave节点运行TaskTracker实例,一个task是一次map或者reduce处理过程。

2、MR程序由一个jar文件和一个xml文件组成,jar包含程序代码,xml包含程序配置操作。

3、客户端设定配置之后,交job,将job数据发送到jobTracker的文件系统中,Mapreduce库会把所输入文件分割成M块,放到不同的datanote上。

4、JobTracker将job放入队列进行调度,并把jar和配置文件放到共享空间。

5、Hadoop有一个机器内进程间操作通信的机制,taskTracker周期性告诉jobTracker工作状态,如果空,job给task分配任务,开一个进程处理。

6、MR程序被传送到各个数据所在的HDFS的datanote上运行,mapper被输送到数据节点上进行计算,中间结果被输送到reducer上进行计算,Reducer将计算结果分布式保存到HDFS。

7、当所有map和reduce任务完成时,master会唤醒用户程序,通知任务完成,再取执行新的任务。

单项选择题 B1型题
多项选择题