Hadoop-HDFS-学习日志-20181213

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_1018944104/article/details/84994222

目录

1、三道海量数据面试题目

2、大数据

3、大数据中几个核心概念

4、Hadoop简单介绍

5、Hadoop安装

6、集群中遇到的问题

7、集群的安装模式

8、HDFS设计思想

9、HDFS的架构-主从架构

10、HDFS优缺点

11、HDFS的使用-shell

12、HDFS的使用-API

14、HDFS的四大机制

15、HDFS的两大核心-上传、下载(有一张流程图是重点)

16、HDFS元数据合并-硬盘上的元数据合并

17、HDFS的各个角色

18、练习题目(一)


1、三道海量数据面试题目

1、一个超大文件(一台机器计算不了),里面存放的都是IP地址,一行存放一个。求这个文件中哪一个IP出现的次数最多?

2、两个超大文件,里面存放的都是url,一行存放一个,求两个文件中相同的url?

3、一个超级大的文件,里面存放的都是url,一行一个,用户给定一个url,如何快速判断url是否在文件中?

2、大数据

1、概念 

2、特点-4v

3、数据分类

4、数据来源

5、数据处理方式

6、数据价值

3、大数据中几个核心概念

1、集群

2、分布式

3、负载均衡

4、扩展能力

4、Hadoop简单介绍

1、产生背景

2、Hadoop是什么

3、Hadoop的组成模块

5、Hadoop安装

1、

2、

3、

……

6、集群中遇到的问题

1、格式化的时候配置文件错

2、格式化问题

3、集群再启动的过程中某一个进程启动失败,或者集群运行一段时间后,某一个进程死了?进程缺失

4、集群的环境变量的配置文件问题

7、集群的安装模式

1、单击模式

2、伪分布式

3、完全分布式

4、高可用

5、联邦模式

8、HDFS设计思想

问题:HDFS负责海量数据的分布式存储,它是如何做到的呢?

例如:数据3T,节点3个,节点配置128G内存 2T磁盘

1、切块存储

2、冗余存储

9、HDFS的架构-主从架构

1、主节点 namenode

2、从节点 datanode

3、secondarynamenode

10、HDFS优缺点

1、优点

2、缺点

11、HDFS的使用-shell

1、最关键的内容,比如如何查看帮助,如何进入hdfs客户端,等

2、最常用的点,比如上传、下载

12、HDFS的使用-API

1、配置环境

2、创建项目

14、HDFS的四大机制

1、心跳机制

2、机架策略-副本存放策略

3、负载均衡

4、安全模式

15、HDFS的两大核心-上传、下载(有一张流程图是重点)

1、文件上传/写数据

2、文件下载/读数据

16、HDFS元数据合并-硬盘上的元数据合并

1、硬盘上存储元数据的文件结构:序列化文件

2、硬盘上的完整元数据组成

3、fsimage文件是如何产生的?

4、fsimage和edits文件的合并工作时谁做的?

5、元数据合并过程

6、edits文件的作用

7、内存中的元数据时刻都是最新、最全的元数据

17、HDFS的各个角色

1、namenode

2、datanode

3、secondarynamenode

4、client

18、练习题目(一)

1、删除HDFS上的某个文件夹(级联删除)  自己写递归

2、删除某个路径下特定类型的文件,比如class类型文件,比如txt类型文件

3、删除HDFS集群中的所有空文件和空目录

4、使用流的方式上传文件

5、使用流的方式下载文件

6、从随机地方开始读,读任意长度

7、手动拷贝某个特定的数据块(比如某个文件的第二个数据块)
        某一个文件只下载第二个数据块
        300M    blk1  0-127  blk2  128-255  blk3:256-300

猜你喜欢

转载自blog.csdn.net/qq_1018944104/article/details/84994222
今日推荐