hadoop 日常使用记录 - 代码天地

hadoop 日常使用记录

其他 2018-07-12 21:36:48 阅读次数: 0

1.Hadoop分布式文件系统（HDFS）

HDFS基于GFS（Google File System），能够存储海量的数据，并且使用分布式网络客户端透明访问。
HDFS中将文件拆分成特定大小的块结构（block-structured filesystem），一个文件的不同块存储在不同的节点中。
为了防止数据丢失，HDFS默认将一个块重复保存3份。
HDFS的架构主要包括两个部分：NameNode和DataNode。
NameNode保存整个文件系统的基础信息，例如：文件名，文件权限，文件每个块的存储位置等。为了能够快速访问获取信息，NameNode将这些基础信息保存在内存中。
DataNodes是那些保存块（blocks）的机器，通常由大容量存储空间的廉价机器充当。

hadoop中常用文件操作命令

hdfs dfs -ls / (列出HDFS根目录的文件信息)
hdfs dfs -mkdir /user （在HDFS中创建目录）
hdfs dfs -put INPUT_PATH OUTPUT_PATH
hdfs dfs -cat
hdfs dfs -get
hadoop fs，hadoop dfs和hdfs dfs命令的区别：fs既能操作本地文件又能操作分布式文件系统，而dfs只能操作HDFS分布式文件系统。hadoop dfs已经废弃

2.MapReduce with Python

MapReduce是一种编程模型，用它来将大量的数据计算任务划分成并行的独立的小任务。
MapReduce框架主要包括3个阶段：map, shuffle and sort, and reduce（映射，混合和排序，规约）
Map阶段：maper函数分别处理系列键值对，产生零个或多个新的键值对。
shuffle and sort：利用基于哈希的分割器给每确定每个键值对对于的reducer，并且进行排序。
Reduce阶段：利用reduce函数，将多个map阶段输出的键值对按照键对值进行合并，然后输出新的键值对。
Hadoop streaming：maper和reducer都是按照一行一行的顺序从标准输入（stdin）读取数据，然后进行标准输出，maper的输出值为多个键值对，每个键值对用制表符（tab）分开。

猜你喜欢

转载自www.cnblogs.com/sandy-t/p/9301920.html

hadoop 日常使用记录

hadoop+hbase+hive日常异常记录

hadoop日常问题记录（1）

hadoop日常

hadoop记录-hadoop集群日常运维命令

hadoop记录

hadoop日常报错解决

hadoop集群日常

hadoop记录-Hadoop参数汇总

Hadoop的使用

[Hadoop]使用Hadoop进行ReduceSideJoin

Hadoop—hadoop fs 命令使用

工具使用日常记录

日常使用eclipse记录

GIT 的日常使用记录

ffmpeg日常使用记录

hadoop 错误记录

hadoop学习记录

hadoop安装记录

hadoop 索引相关记录

hadoop/hbase补充记录

Hadoop常用端口记录

记录Hadoop学习---HDFS

Hadoop学习疑问记录

linux安装hadoop记录

Hadoop记录-NameNode优化

Hadoop记录-变更

Hadoop记录-Linux Service

hadoop记录-flink测试

Hadoop的初级学习记录

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)