Hadoop Core_MapReduce总结（三)

编程语言 2018-12-20 16:32:47 阅读次数: 0

四、 MapReduce Shell 应用

1、MapReduce 的二级命令

mapred 称为一级命令，直接输入 mapred 回车，即可查看二级命令：

2、MapReduce 的三级命令

输入一级命令 mapred 后，再任意输入一个二级命令，即可查看三级命令：

3、MapReduce shell 应用

查看当前正在执行的 job 任务

先提交一个 WordCount 任务，然后使用 mapred job -list 查看任务列表

终止(kill)一个任务的执行

构造场景：先提交一个 WordCount job，然后通过 kill job-id 来终止任务

查看一个 job 的日志

命令格式为：mapred job -logs job-id

五、 MapReduce 技术特征

1、向“外”横向扩展，而非向“上”纵向扩展

集群的构建完全选用价格便宜、易于扩展的低端商用服务器，而非价格昂贵不易扩展的商用服务
大规模数据处理和大规模数据存储的需要，讲求集群综合能力，而非单台机器处理能力，横向增加机器节点数据量

2、失效被认为是常态

使用大量普通服务器，节点硬件和软件出错是常态
具备多种有效的错误检测和恢复机制，在某个计算节点失效后会自动转移到别的计算节点。某个任务节点失败后其他节点能够无缝接管失效节点的计算任务
当失效节点恢复后自动无缝加入集群，不需要管理员人工进行系统配置

3、移动计算，把处理向数据迁移(数据本地性)

采用代码/数据互定位的功能，计算和数据在同一个机器节点或者是同一个机架中，发挥数据本地化特点
可避免跨机器节点或是机架传输数据，提高运行效率

4、顺序处理数据、避免随机访问数据

磁盘的顺序访问远比随机访问快得多，因此 MapReduce 设计为面向顺序式大规模数据的磁盘访问处理
利用集群中的大量数据存储节点同时访问数据，实现面向大数据集批处理的高吞吐量的并行处理

5、推测执行

一个作业由若干个 Map 任务和 Reduce 任务构成，整个作业完成的时间取决于最慢的任务的完成时间。由于节点硬件、软件问题，某些任务可能运行很慢
采用推测执行机制，发现某个任务的运行速度远低于任务平均速度，会为慢的任务启动一个备份任务，同时运行。哪个先运行完，采用哪个结果。

6、平滑无缝的可扩展性

可弹性的增加或减少集群计算节点来调节计算能力
计算的性能随着节点数的增加保持接近线性程度的增长

7、为应用开发这隐藏系统底层细节

并行编程有很多困难，需要考虑多线程中复杂繁琐的细节，诸如分布式存储管理、数据分发、数据通信和同步、计算结果收集等细节问题。
MapReduce 提供了一种抽象机制将程序员与系统层细节隔离开，程序员只需关注业务，其他具体执行交由框架处理即可。

猜你喜欢

转载自blog.csdn.net/weixin_40235225/article/details/85118231

Hadoop Core_MapReduce总结（三)

Hadoop Core_MapReduce总结（二)_WordCount

Hadoop Core_MapReduce总结（一）

hadoop-MapReduce总结

Hadoop-Mapreduce(三）

Hadoop(三)–MapReduce

【Hadoop】(三) Hadoop计算框架 MapReduce

Hadoop mapreduce

Hadoop - MapReduce

hadoop的MapReduce

Hadoop（MapReduce）

Hadoop—MapReduce

hadoop --- MapReduce

Hadoop MapReduce 初步学习总结

"Hadoop/MapReduce/HBase"分享总结

Hadoop(HDFS、MapReduce、Yarn)总结

Hadoop之MapReduce开发总结

Hadoop学习之旅三：MapReduce

Hadoop学习记录（三、MapReduce）

Hadoop Core_HDFS总结（三）——思考问题

Hadoop总结

hadoop 总结

Hadoop总结：

Hadoop系列（六）Hadoop三大核心之MapReduce 基础

Hadoop（三）

精通HADOOP（三） - 初识Hadoop - Hadoop介绍

hadoop入门09：mapreduce开发总结

Hadoop(MapReduce)知识点总结

【Hadoop离线基础总结】MapReduce增强（下）

【Hadoop离线基础总结】MapReduce增强（上）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)