Hadoop知识点（一）

文章目录

Hadoop为什么比传统技术方案快

1、分布式存储
2、分布式并行计算
3、节点横向扩展
4、移动程序到数据端
5、多个数据副本

大数据有什么特点？

(1)海量化
数据量大（多）
(2)多样化
结构化数据，半结构化数据，和非结构化数据
(3)快速化
数据的增长速度快
(4)高价值
海量数据价值高

hdfs的shell客户端操作命令分别代表什么意思?

(1)-ls 显示文件、目录信息
(2)-mkdir 在hdfs上创建目录，-p表示会创建路径中的各级父目录
(3)-put 将单个src或多个srcs从本地文件系统复制到目标文件系统
(4)-get 将文件复制到本地文件系统
(5)-appendFile 追加一个文件到已经存在的文件末尾
(6)-cat 显示文件内容
(7)-tail 将文件的最后的内容显示
(8)-chmod 改变文件的权限。使用-R将使改变在目录结构下递归进行
(9)-copyFromLocal 从本地文件系统中拷贝文件到hdfs路径去
(10)-copyToLocal 从hdfs拷贝到本地
(11)-cp 从hdfs的一个路径拷贝hdfs的另一个路径
(12)-mv 在hdfs目录中移动文件
(13)-rm 删除指定的文件。只删除非空目录和文件。-r 递归删除
(14)-df 统计文件系统的可用空间信息
(15)-du 显示目录中所有文件大小，当只指定一个文件时显示此文件的大小

大数据能做什么？

(1)海量数据快速查询
(2)海量数据的存储（数据量大，单个大文件）
(3)海量数据的快速计算（与传统的工具对比）
(4)海量数据实时计算（立刻马上）
(5)数据挖掘（挖掘以前没有发现的有价值的数据）

hdfs的主要功能什么?

Hdfs的主要功能作用是分布式存储大量的数据

hadoop的垃圾桶机制在哪一个文件中配置的?

core-site.xml文件中配置

垃圾桶配置参数是什么?

fs.trash.interval

启动jobHistoryserver服务进程的命令?

mr-jobhistory-daemon.sh start historyserver 启动
mr-jobhistory-daemon.sh stop historyserver 关闭

jobhistoryserver的webUI访问的默认端口是什么?

默认端口是19888

安装hadoop时需要配置的文件有哪些?

(1)hadoop-env.sh
(2)core-site.xml
(3)hdfs-site.xml
(4)mapred-site.xml
(5)yarn-site.xml
(6)Slaves

首次启动 HDFS 时，必须对其进行格式化操作的命令？

bin/hdfs namenode -format或者bin/hadoop namenode –format

hadoop安装包目录包括哪些文件夹,各有什么作用?

(1)bin：Hadoop最基本的管理脚本和使用脚本的目录
(2)etc：Hadoop配置文件所在的目录
(3)include：对外提供的编程库头文件
(4)lib：该目录包含了Hadoop对外提供的编程动态库和静态库
(5)libexec：各个服务对用的shell配置文件所在的目录
(6)sbin：Hadoop管理脚本所在的目录
(7)share：Hadoop各个模块编译后的jar包所在的目录，官方自带示例

Hadoop 特性优点?

(1)扩容能力
(2)成本低
(3)高效率
(4)可靠性

Hadoop部署的方式分别是哪几种?

(1)Standalone mode（独立模式）
(2)Pseudo-Distributed mode（伪分布式模式）
(3)Cluster mode（群集模式）

网络同步时间的命令？

ntpdate cn.pool.ntp.org（ntpdate 地址）

设置主机名在哪一个文件中？

/etc/sysconfig/network

配置IP、主机名映射的文件是哪一个？

/etc/hosts

启动HDFS NameNode的命令？

hadoop-daemon.sh start namenode

单节点启动HDFS DataNode？

hadoop-daemon.sh start datanode

单节点启动YARN ResourceManager?

yarn-daemon.sh start resourcemanager

HDFS集群的一键启动和关闭脚本命令分别是什么？

start-dfs.sh启动脚本 stop-dfs.sh 停止脚本

简单概述hadoop的combinet与partition的区别

combine和partition都是函数，中间的步骤应该只有shuffle！ combine分为map端和reduce端，作用是把同一个key的键值对合并在一起，可以自定义的,partition是分割map每个节点的结果，按照key分别映射给不同的reduce，也是可以自定义的。这里其实可以理解归类。

HBase依赖什么提供消息通信机制？

Zookeeper

请详细描述Hbase中一个Cell 的结构

HBase 中通过row 和columns 确定的为一个存贮单元称为cell。Cell：由{row key, column(=<family> + <label>), version}唯一确定的单元。cell 中的数据是没有类型的，全部是字节码形式存贮。

hbase中compact触发时机

1）Memstore刷写后，判断是否compaction
2）CompactionChecker线程，周期轮询

hbase与mysql的区别

Mysql面向行存储数据，整个行的数据是一个整体，存储在一起
Hbase面向列存储数据，整个行的数据是一个整体，存储在一起，有利于压缩和统计

hbase的compact作用

1.合并文件
2.清理过期数据
3.提高读写数据的效率

大数据的处理流程

数据生产 --》数据采集 --》数据存储 --》需求分析 --》数据预处理 --》数据计算 --》结果数据存储 --》结果数据展现

Hbase宕机如何处理

宕机分为 HMaster 宕机和 HRegisoner 宕机，如果是 HRegisoner 宕机，HMaster 会将其所管理的 region 重新分布到其他活动的 RegionServer 上，由于数据和日志都持久在 HDFS 中，该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。如果是 HMaster 宕机， HMaster 没有单点问题， HBase 中可以启动多个HMaster，通过 Zookeeper 的 Master Election 机制保证总有一个 Master 运行。即ZooKeeper 会保证总会有一个 HMaster 在对外提供服务