大数据自学笔记1----什么是hdfs!!!

玩大数据,首先得学如何存大数据。

那问题来了,数据怎么存呢?

路人1:存在window操作系统的“我的电脑”的C,D,E,F盘里面咯。

我:那如果我的数据很多呢?有5个T的数据。

路人1:加装4个1T的硬盘

我:那如果我有1000T的数据呢!

路人1:装999个1T的硬盘

我:。。。杠精滚粗

首先我承认加硬盘的确是个好方法。能让我们存很多的数据,但是我们需要考虑一下几个问题。

1. 硬盘扫描问题:比如我现在要从C盘找一个文件,如果我的C盘有1000T的文件量,找出一个文件应该是很耗时的(我自己笔记本从500g里面找一个文件都要半天)

2. 安全问题:如果一台电脑炸了,那你数据全部就没了。

3. 插槽问题:你电脑有这么多硬盘接口???

其实还有很多问题,咱这就不一一讨论了。进入正题

什么是HDFS(分布式文件系统):

通俗点说就是几台电脑把文件系统共享的一种文件系统。

还是不够通俗?啥文件系统巴拉巴拉的?

那就举个栗子吧。

A君有一台笔记本,硬盘2T

B君有一台笔记本,硬盘2T

C君有一台笔记本,硬盘2T

他们都用window操作系统,而且都只有C盘(注意C盘你可以理解为就是一种文件系统,因为C盘用来管理文件嘛)

有一天A君的C盘容量不够了,只能跑到B君那,把文件存在B君的电脑上。可是他们住的比较远存来存去好烦。

这时候C君这位技术宅出面了,说为什么我们不能把我们3个的硬盘用一种网路的方式连接起来组合成一个6个T的网盘。

以后我们只需要向这个网盘里面存东西,取文件也从这个网盘里面取。

这是个好主意!于是3人说干就干,造出了这个网盘。

这个网盘有如下几点特性:
1. 一人上传文件,文件会被随机存入的3台电脑中的某台电脑(除非某台电脑容量满了)

2. 上传的文件会有一个备份文件,这个备份文件会被存入另外一台电脑(如果一台电脑炸了,备份文件在另一台电脑上是安全的)

3. 还有啥特性我没想好

好的!说了这么多,这个网盘,你可以理解为就是hdfs的一个简化版了。

那什么是hdfs?就是一个分布式(多台电脑)文件系统(大网盘)!

多台电脑的C盘用网络连接起来组成的大网盘,就叫分布式文件系统!!!

下一章细细讨论下hdfs的原理,以备面试用

猜你喜欢

转载自www.cnblogs.com/jy451/p/10200124.html