《大数据技术应用与原理》第二版-第二章大数据处理架构Hadoop

2.1概述

  1. Hadoop是Apache旗下的开源分布式计算平台,是基于Java开发的,具有很好的跨平台特性,其中核心文件是MapReduce和HDFS,而HDFS是根据谷歌文件系统GFS开源实现,是面向普通硬件环境的分布式文件系统,具有很好的容错性和很高的读写速度。MapReduce是根据谷歌的MapReduce开源实现的,允许用户在不了解分布式系统底层实现原理的情况下进行并行程序开发。
  2. 分布式存储、分布式处理
  3. 高可靠性、高效性、高扩展性、高容错性、成本低、运行在Linux上、支持多种编程语言开发。

2.3安装与使用

  1. 单机模式:Hadoop默认模式为非分布式(本地模式),无需进行其他配置即可进行运行。非分布式即单Java进程,方便进行调试。
  2. 伪分布式模式:Hadoop可以在单节点上以伪分布式的方式进行运行,Hadoop进程以分离的Java进程来运行,既可以作为NameNode,也可以作为DataNode,同时,读取HDFS中的文件。
  3. 分布式模式:使用多个节点构成集群环境运行Hadoop。
  4. 三种Shell方式区别:
    1. Hadoop fs 适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统
    2. hadoop dfs 只是用于HDFS文件系统
    3. hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS

猜你喜欢

转载自www.cnblogs.com/tsruixi/p/12078844.html