Hadoop一步一步笔记 - 代码天地

Hadoop一步一步笔记

其他 2018-07-21 21:04:57 阅读次数: 0

MapReduce编程模型

MapReduce采用“分而治之”的思想。将HDFS上海量数据切分成为若干块，将每块的数据分给集群上的节点进行计算。然后通过整合各节点的中间结果，得到最终的结果。

HDFS上默认块的大小要比磁盘默认的大小大的多。其目的是为了最小化寻址开销。如果块设置得足够大，从磁盘传输数据的时间明显大于定位这个块开始位置所需时间。这样，传输一个由多个块组成的文件时间取决于磁盘传输速率。HDFS默认块的大小为128MB。随着磁盘驱动器的进一步发展块的默认大小可以设置的更大。

MapReduce的处理过程

一个复杂的MapReduce任务可以分为若干个Job。每个Job又可以分为Mapper和Reducer两个阶段。这两个阶段对应到代码内就是继承Mapper的内部类和继承Reducer的内部类。继承Mapper的内部类需要实现map函数,继承Reducer的内部类需要实现Reduce函数。Map函数接收一个<key,value>的键值对同时也会输出一个 <key,value> 的键值对。Reduce函数接收一个<key,list of values>（值为所有键为key的value集合,例如: map的输出为<1,1>,<1,2>,<1,3>,<1,4>则reduce的输入为<1,[1,2,3,4]>）同时经过处理后同样会输出<key,value>键值对。MapReduce运行过程的数据流。

猜你喜欢

转载自blog.csdn.net/qq_25948717/article/details/81033881

Hadoop一步一步笔记

《向前一步》笔记

一步一步 Voyager

一步一步来

hadoop开发第一步

一步青云

Hadoop实例WordCount程序一步一步运行

一步一步学习大数据：Hadoop 生态系统与场景

跟我一步一步学习Hadoop(1)准备Linux集群环境

一步一步学springboot 一

一步一步写ARM汇编（一）

一步一步学习KBEngine（三）

一步一步学习KBEngine（四）

一步一步构建自己的管理系统①

一步一步理解Paxos算法

一步一步点亮LED

一步一步自定义LayoutManager

一步一步写ARM汇编（三）

一步一步写ARM汇编（二）

一步一步写ARM汇编（四）

一步一步写ARM汇编（五）

一步一步自定义spinner

一步一步实现KNN分类算法

一步一步搭建springCloud

一步一步教你webpack打包

一步一步了解handler机制

一步一步搭建自己的网站

一步一步理解线段树

一步一步教你使用CodeFisrt

一步一步python flask 搭建web

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)