大数据Hadoop学习笔记（一）

其他 2018-10-20 07:17:39 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yuanyi0501/article/details/83030459

大数据Hadoop2.x

hadoop用来分析存储网路数据
MapReduce：对海量数据的处理、分布式。
思想————> 分而治之，大数据集分为小的数据集，每个数据集进行逻辑业务处理合并统计数据结果（reduce）
运行模式：本地模式和yarn模式
input——>map——>shuffle——>reduce——>output
shuffle：将结果进行排序
HDFS：存储海量数据

分布式

数据安全性——>副本数据（一般保存3份）
数据是以block的方式进行存储的

YARN：分布式资源管理框架

管理整个集群的资源（内存，CPU核数）
分配调度集群的资源

ResouceManager

整个集群的资源管理和调度

NodeManager

管理每个节点的资源和调度

MapReduce ：分而治之

map：分。跟别计算每个block的结果
reduce：合并结果

NameNode主节点

存储文件系统的元数据（文件名、文件目录结构、文件属性）。数据流不经过存储在内存（进程），读取速度比较快
Datanodes从节点
- 本地文件系统存储文件块数据，以及块数据的校验和
- 本地磁盘——>fsimage：镜像文件 edites：编辑日志
SecondaryNameNode
- 辅助namenode工作，2.0版本中默认存在的。周期性的合并两个文件
  ===========================================
rpm -qa|grep java 查看linux当前版本
rpm -e --nodeps 卸载当前Java
echo ${变量} 显示变量的路径。如echo ${JAVA_HOME} 显示JAVA_HOME的安装路径

常见的hdfs命令

bin/hdfs dfs -ls 文件目录查看目录下有哪些文件。不加路径，直接查看用户主目录/user/root
bin/hdfs dfs -rm -R 文件目录（文件名）删除文件。如果直接输入文件名，则删除用户主目录下的文件
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/root/mapreduce/wordcount/input/ /user/root/mapreduce/wordcount/output mapreduce应用提交到yarn上面。mapreduce的输出结果在outpu文件，文件夹之前是不能存在的
bin/hdfs dfs -cat 文件目录读取文件
bin/hdfs dfs -text 文件目录读取文件，将要读取的文件变成文本文件
bin/hdfs dfs namenode -formate namenode格式化
sbin/mr-jobhistory-daemon.sh start historyserver 启动历史服务器
多个版本Hadoop 大数据集群拷贝
- hadoop distcp -i hftp://sourceFS:50070/src hdfs://destFS:8020/dest

hadoop默认提供3个mapreduce程序，用于基本测试

taragen：深层数据
terasort：对数据排序
taravalidate：验证排序结果

猜你喜欢

转载自blog.csdn.net/yuanyi0501/article/details/83030459

大数据Hadoop学习笔记（一）

大数据学习笔记（一）：Hadoop

大数据学习笔记(一)_Hadoop简述

Hadoop学习笔记（一）：Hadoop及大数据基本了解

大数据Hadoop学习笔记（六）

大数据Hadoop学习笔记（三）

大数据Hadoop学习笔记（二）

大数据Hadoop学习笔记（五）

大数据Hadoop学习笔记（四）

大数据学习笔记之初识Hadoop

大数据学习笔记三（Hadoop总结）

（一）hadoop学习之大数据简介

大数据学习（一） | 初识 Hadoop

Hadoop学习一（初识大数据）

大数据学习笔记4 - Hadoop的优化与发展（Hadoop 2.0）

大数据学习笔记之Hadoop（四）：Hadoop-HA

hadoop 大数据笔记

大数据学习_Hadoop

大数据学习笔记（一）

大数据学习笔记一

大数据学习笔记【一】：Hadoop-3.1.2完全分布式环境搭建（Windows 10）

2021年全网最细大数据学习笔记（一）：初识 Hadoop

大数据学习---Hadoop学习

大数据学习笔记（二）-hadoop安装【原创】

大数据学习笔记（三）-hadoop demo 运行【原创】

《Hadoop 权威指南 - 大数据的存储与分析》学习笔记

大数据入门学习笔记（贰）- 初识Hadoop

大数据学习笔记之Hadoop-HDFS

大数据技术学习笔记：Hadoop集群搭建

「大数据学习笔记」1.2 Linux Hadoop的安装与配置

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)