Hadoop知识点(一)

Hadoop为什么比传统技术方案快

1、分布式存储
2、分布式并行计算
3、节点横向扩展
4、移动程序到数据端
5、多个数据副本

大数据有什么特点?

(1)海量化
数据量大(多)
(2)多样化
结构化数据,半结构化数据,和非结构化数据
(3)快速化
数据的增长速度快
(4)高价值
海量数据价值高

hdfs的shell客户端操作命令分别代表什么意思?

(1)-ls 显示文件、目录信息
(2)-mkdir 在hdfs上创建目录,-p表示会创建路径中的各级父目录
(3)-put 将单个src或多个srcs从本地文件系统复制到目标文件系统
(4)-get 将文件复制到本地文件系统
(5)-appendFile 追加一个文件到已经存在的文件末尾
(6)-cat 显示文件内容
(7)-tail 将文件的最后的内容显示
(8)-chmod 改变文件的权限。使用-R将使改变在目录结构下递归进行
(9)-copyFromLocal 从本地文件系统中拷贝文件到hdfs路径去
(10)-copyToLocal 从hdfs拷贝到本地
(11)-cp 从hdfs的一个路径拷贝hdfs的另一个路径
(12)-mv 在hdfs目录中移动文件
(13)-rm 删除指定的文件。只删除非空目录和文件。-r 递归删除
(14)-df 统计文件系统的可用空间信息
(15)-du 显示目录中所有文件大小,当只指定一个文件时显示此文件的大小

大数据能做什么?

(1)海量数据快速查询
(2)海量数据的存储(数据量大,单个大文件)
(3)海量数据的快速计算(与传统的工具对比)
(4)海量数据实时计算(立刻马上)
(5)数据挖掘(挖掘以前没有发现的有价值的数据)

hdfs的主要功能什么?

Hdfs的主要功能作用是分布式存储大量的数据

hadoop的垃圾桶机制在哪一个文件中配置的?

core-site.xml文件中配置

垃圾桶配置参数是什么?

fs.trash.interval

启动jobHistoryserver服务进程的命令?

mr-jobhistory-daemon.sh start historyserver 启动
mr-jobhistory-daemon.sh stop historyserver 关闭

jobhistoryserver的webUI访问的默认端口是什么?

默认端口是19888

安装hadoop时需要配置的文件有哪些?

(1)hadoop-env.sh
(2)core-site.xml
(3)hdfs-site.xml
(4)mapred-site.xml
(5)yarn-site.xml
(6)Slaves

首次启动 HDFS 时,必须对其进行格式化操作的命令?

bin/hdfs namenode -format或者bin/hadoop namenode –format

hadoop安装包目录包括哪些文件夹,各有什么作用?

(1)bin:Hadoop最基本的管理脚本和使用脚本的目录
(2)etc:Hadoop配置文件所在的目录
(3)include:对外提供的编程库头文件
(4)lib:该目录包含了Hadoop对外提供的编程动态库和静态库
(5)libexec:各个服务对用的shell配置文件所在的目录
(6)sbin:Hadoop管理脚本所在的目录
(7)share:Hadoop各个模块编译后的jar包所在的目录,官方自带示例

Hadoop 特性优点?

(1)扩容能力
(2)成本低
(3)高效率
(4)可靠性

Hadoop部署的方式分别是哪几种?

(1)Standalone mode(独立模式)
(2)Pseudo-Distributed mode(伪分布式模式)
(3)Cluster mode(群集模式)

网络同步时间的命令?

ntpdate cn.pool.ntp.org(ntpdate 地址)

设置主机名在哪一个文件中?

/etc/sysconfig/network

配置IP、主机名映射的文件是哪一个?

/etc/hosts

启动HDFS NameNode的命令?

hadoop-daemon.sh start namenode

单节点启动HDFS DataNode?

hadoop-daemon.sh start datanode

单节点启动YARN ResourceManager?

yarn-daemon.sh start resourcemanager

HDFS集群的一键启动和关闭脚本命令分别是什么?

start-dfs.sh启动脚本 stop-dfs.sh 停止脚本

简单概述hadoop的combinet与partition的区别

combine和partition都是函数,中间的步骤应该只有shuffle! combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,可以自定义的,partition是分割map每个节点的结果,按照key分别映射给不同的reduce,也是可以自定义的。这里其实可以理解归类。

HBase依赖什么提供消息通信机制 ?

Zookeeper

请详细描述Hbase中一个Cell 的结构

HBase 中通过row 和columns 确定的为一个存贮单元称为cell。Cell:由{row key, column(=<family> + <label>), version}唯一确定的单元。cell 中的数据是没有类型的,全部是字节码形式存贮。

hbase中compact触发时机

1)Memstore刷写后,判断是否compaction
2)CompactionChecker线程,周期轮询

hbase与mysql的区别

Mysql面向行存储数据,整个行的数据是一个整体,存储在一起
Hbase面向列存储数据,整个行的数据是一个整体,存储在一起,有利于压缩和统计

hbase的compact作用

1.合并文件
2.清理过期数据
3.提高读写数据的效率

大数据的处理流程

数据生产 --》数据采集 --》数据存储 --》需求分析 --》数据预处理 --》数据计算 --》结果数据存储 --》结果数据展现

Hbase宕机如何处理

宕机分为 HMaster 宕机和 HRegisoner 宕机,如果是 HRegisoner 宕机,HMaster 会将其所管理的 region 重新分布到其他活动的 RegionServer 上,由于数据和日志都持久在 HDFS 中,该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。如果是 HMaster 宕机, HMaster 没有单点问题, HBase 中可以启动多个HMaster,通过 Zookeeper 的 Master Election 机制保证总有一个 Master 运行。即ZooKeeper 会保证总会有一个 HMaster 在对外提供服务

猜你喜欢

转载自blog.csdn.net/weixin_42072754/article/details/109291607