读书笔记-Hadoop大数据小结 - 代码天地

读书笔记-Hadoop大数据小结

其他 2019-10-28 14:50:48 阅读次数: 0

MapReduce执行流程：用户作业执行jobclient.runJob在Hadoop集群上启动，启动后jobclient会向jobtracker获取jobid，而且客户端会将作业执行资源复制到hdfs上，然后将作业提交给jobtracker，jobtracker初始化本地任务，然后从hdfs作业资源获取作业输入的分割信息，根据这些信息jobtracker将该任务分割成多个任务，然后将这些任务分配给心跳需求的tasktracker。tasktracker街道新任务之后会从hdfs获取任务资源，包括作业分配，分片输入，然后在本地启动一个java虚拟机并执行任务。任务结束之后将结果返回到hdfs。

Mapreduce采用的两种机制：错误处理机制，作业调度机制。在错误处理机制中如果遇到硬件故障，hadoop会将任务分配到其他节点上运行，如果遇到任务失败，会重新执行。在作业调度中，公平调度器和fifo调度，开启公平调度器后能够根据作业用户数将资源均匀的分配到用户的作业池中，达到用户共享整个集群。

Mapreduce中的shuffle和任务执行：shuffle的过程包括在map端，当缓冲区内容达到阈值的map开始写出，写出时按照key值在进行排序，再按照分区写入文件，然后在merger小文件将结果交给reduce。关于任务执行的三个重要细节：推测式执行，jvm重用，执行环境。执行环境主要是让用户可以看到执行参数的内容和任务目录结构。

猜你喜欢

转载自www.cnblogs.com/chunqiu0123/p/11752131.html

读书笔记-Hadoop大数据小结

读书笔记-Hadoop大数据shuffle

读书笔记-Hadoop大数据任务优化

大数据读书笔记（1）

【读书笔记】大数据时代

Hadoop实战读书笔记

《数据算法Hadoop/Spark》读书笔记4--topN

Hadoop构建数据仓库实践读书笔记【1】

大数据时代【Big Data】读书笔记

《删除：大数据取舍之道》读书笔记

阿里巴巴大数据实践-读书笔记

《大数据时代的算法》读书笔记（一）

《人力资源管理大数据》读书笔记

【读书笔记】大数据平台基础架构指南

离线大数据开发实战（读书笔记）

读书笔记2区块链与大数据

《MongoDB大数据处理权威指南》读书笔记

《大数据数学基础Python版》读书笔记一

编程思想读书笔记小结

《大数据之路-阿里巴巴大数据实践》读书笔记

【读书笔记】大数据之路：阿里巴巴大数据实践

大数据之路、阿里巴巴大数据实践读书笔记目录

《Hadoop权威指南》读书笔记

《Hadoop权威指南》读书笔记一

Hadoop权威指南-读书笔记

读书笔记：Hadoop权威指南简介

CoreJava读书笔记--大数值

Hadoop构建数据仓库实践读书笔记【3】__数据仓库设计基础

hadoop 大数据笔记

《数据算法Hadoop/Spark》读书笔记3--Top10

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)