hdfs前提和设计目标

硬件错误
硬件错误是常态而不是异常。
HDFS可能由成百上千的服务器所构成,单机故障概率的存在意味着总有一部分服务器不工作的。加粗样式
错误检测和快速自动恢复是HDFS最核心架构目标。

流式数据访问
运行在HDFS上的应用需要流式访问它们的数据集。
HDFS的设计重点是批处理,而不是交互处理。是高吞吐量而不是低延迟。
为了提高数据的吞吐量,在关键方面修改POSIX的语义。

大规模数据集
HDFS上的一个典型文件大小一般都在G字节至T字节。
HDFS支持大文件存储。
单一HDFS实例能支撑数以千万计的文件。

简单的一致性模型
HDFS应用遵循“一次写入多次读取”的文件访问模型。
简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。
Map/Reduce应用或者网络爬虫应用都非常适合这个模型。

移动计算比移动数据更划算
降低网络阻塞的影响,提高系统数据的吞吐量。
将计算程序发送到数据所在的主机,比GB级别TB级别的数据移动更便捷。

异构软硬件平台间的可移植性
HDFS在设计的时候就考虑到平台的可移植性。
这种特性方便了HDFS作为大规模数据应用平台的推广。

猜你喜欢

转载自blog.csdn.net/qq_18532033/article/details/88616025
今日推荐