简述Wordcount算例。
参考答案:
一、自动分割文本。
二、分割后的每一对
三、系统自动对输出结果集归拢排序,传给reduce。
四、通过reduce生成最后结果。
3Hadoop执行MR的过程;
1、master节点运行jobTracker实例,接收客户端job请求,一个job是对一个数据集的处理,slave节点运行TaskTracker实例,一个task是一次map或者reduce处理过程。
2、MR程序由一个jar文件和一个xml文件组成,jar包含程序代码,xml包含程序配置操作。
3、客户端设定配置之后,交job,将job数据发送到jobTracker的文件系统中,Mapreduce库会把所输入文件分割成M块,放到不同的datanote上。
4、JobTracker将job放入队列进行调度,并把jar和配置文件放到共享空间。
5、Hadoop有一个机器内进程间操作通信的机制,taskTracker周期性告诉jobTracker工作状态,如果空,job给task分配任务,开一个进程处理。
6、MR程序被传送到各个数据所在的HDFS的datanote上运行,mapper被输送到数据节点上进行计算,中间结果被输送到reducer上进行计算,Reducer将计算结果分布式保存到HDFS。
7、当所有map和reduce任务完成时,master会唤醒用户程序,通知任务完成,再取执行新的任务。