调用run方法,代表程序跑起来了。
人为可以干预设置reduce的个数。
还可以设置为0代表没有reduce的环节。
如果有reduce,就有排序,排序占33%,map占66%
我们一般需要重写map方法。
每一个切片都有:
①属于哪一个文件,
②起始的位置信息
③切片的长度
④结束的位置信息
读取的文件的输入方式
hdfs在切分的时候,有可能将一个单词切分为两个部分。
首先是初始化环节,然后才是调取run方法
run方法实际上就是给key和value进行赋值的。
赋值是否成功:
这里是循环遍历输出,至此,map端就完成了。