第四章开发MapReduce应用程序 - 代码天地

第四章开发MapReduce应用程序

企业开发 2018-05-11 12:21:15 阅读次数: 2

4.1 系统参数的配置

配置中被标记为“final”的属性不能被重写

4.2 配置开发环境

Hadoop三种不同的运行方式：单机模式、伪分布式模式、完全分布式

4.3 编写MapReduce程序

4.4 本地测试

P62

4.5 运行MapReduce程序

P62

4.6 网络用户界面

P65

4.7 性能调优

P68

4.8 MapReduce工作流

1、setup函数

/**
   * Called once at the beginning of the task.
   */
  protected void setup(Context context
                       ) throws IOException, InterruptedException {
    // NOTHING
  }

在task函数启动之后数据处理之前值调用一次，而map函数和reduce函数会针对分片中每个key调用一次

2、cleanup函数

  /**
   * Called once at the end of the task.
   */
  protected void cleanup(Context context
                         ) throws IOException, InterruptedException {
    // NOTHING
  }

在task销毁之前调用

3、run数

  /**
   * Expert users can override this method for more complete control over the
   * execution of the Mapper.
   * @param context
   * @throws IOException
   */
  public void run(Context context) throws IOException, InterruptedException {
    setup(context);
    while (context.nextKeyValue()) {
      map(context.getCurrentKey(), context.getCurrentValue(), context);
    }
    cleanup(context);
  }

启动函数

MapReduce Job中的全局共享数据

1、读取HDFS文件

针对多个Map和Reduce写操作时会覆盖之前的数据，I/O消耗资源

2、配置Job属性

通过Configuration类中的set()设置属性，在task中通过get()获得属性，较大的数据共享乏力

3、DistributedCache

MapReduce为应用提供缓存文件的只读工具

猜你喜欢

转载自mvplee.iteye.com/blog/2224631

第四章开发MapReduce应用程序

C程序第四章

第四章开发准备

.Net应用开发第四章作业

Python程序开发——第四章字典与集合

第四章：离线计算框架MapReduce

第四章应用模块化

第四章 Runtime应用：方法转换

第四章 Runtime应用：方法添加

JavaScript第四章：应用这个JavaScript函数

第四章微分中值定理及导数的应用

【web应用系统实践】第四章作业

【Java基础】第四章 Object 类应用

第四章——循环程序设计

第四章程序的控制结构作业

第四章程序的控制结构

《算法》第四章部分程序 part 5

《算法》第四章部分程序 part 4

《算法》第四章部分程序 part 15

《算法》第四章部分程序 part 14

《算法》第四章部分程序 part 17

《算法》第四章部分程序 part 19

《算法》第四章部分程序 part 10

《算法》第四章部分程序 part 16

《算法》第四章部分程序 part 11

第四章程序编译连接1

《程序设计技术》第四章例程

《程序是怎样跑起来的》第四章

如何让程序跑起来――第四章

程序怎样跑起来的第四章

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)