Haddoop大数据教程笔记_03_Hadoop安装部署及HDFS文件系统操作

目录

1. Hadoop安装部署

    1.1 Hadoop安装包下载:

    1.2 下载后上传文件并解压:

2.HDFS文件系统操作

2.1修改配置文件

2.1.1 修改hadoop-env.sh 指定Java的安装目录

2.1.2 修改core-site.xml  --指定hadoop的默认文件系统

2.1.3 修改hdfs-site.xml   指定namenode、datanode存储的本地目录

2.1.4 拷贝整个hadoop安装目录到其他机器(先创建apps目录)

2.1.5 配置Hadoop命令的环境变量,便于手动启动和调试

2.2启动hdfs

2.2.1 初始化namenode的元数据目录

2.2.2 启动namenode进程(在master上)

2.2.3 启动多个datanode(在任意节点)

2.2.4 用自动批量启动脚本来启动HDFS

2.3 hdfs的客户端操作

2.3.1 hdfs命令行客户端的常用操作命令

2.3.2 hdfs的java客户端编程

2.3.3 hadoop 在 windons 上操作需先修改以下内容:

主要配置文件

后续分享工作原理>


1. Hadoop安装部署

    1.1 Hadoop安装包下载:

        https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/

        具体目录: 

https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.10.0/hadoop-2.10.0.tar.gz

    1.2 下载后上传文件并解压:

tar -zxvf hadoop-2.10.0.tar.gz -C /apps

        解压后可删除压缩包和/share/doc 文件夹(文档),节省空间。

2.HDFS文件系统操作

2.1修改配置文件

需要修改以下参数

1)指定hadoop的默认文件系统为:hdfs

2)指定hdfs的namenode节点为哪台机器

3)指定namenode软件存储元数据的本地目录

4)指定datanode软件存放文件块的本地目录

配置文件目录:/root/apps/hadoop-2.10.0/etc/hadoop

2.1.1 修改hadoop-env.sh 指定Java的安装目录

export JAVA_HOME=/root/apps/jdk

2.1.2 修改core-site.xml  --指定hadoop的默认文件系统

  <configuration>
  <property>
  <name>fs.defaultFS</name>
  <value>hdfs://hdp-01:9000</value>
  </property>
  </configuration>

2.1.3 修改hdfs-site.xml   指定namenode、datanode存储的本地目录

  <configuration>
  <property>
  <name>dfs.namenode.name.dir</name>
  <value>/root/dfs/name</value>
  </property>
​
  <property>
  <name>dfs.datanode.data.dir</name>
  <value>/root/dfs/data</value>
  </property>
  </configuration>

2.1.4 拷贝整个hadoop安装目录到其他机器(先创建apps目录)

  scp -r /root/apps/hadoop-2.10.0 hdp-01:/root/apps/hadoop-2.10.0
  scp -r /root/apps/hadoop-2.10.0 hdp-02:/root/apps/hadoop-2.10.0
  scp -r /root/apps/hadoop-2.10.0 hdp-03:/root/apps/hadoop-2.10.0

2.1.5 配置Hadoop命令的环境变量,便于手动启动和调试

  vi /etc/profile
  export HADOOP_HOME=/root/apps/hadoop-2.10.0
  export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2.2启动hdfs


2.2.1 初始化namenode的元数据目录

hadoop namenode -format
# 创建一个全新的元数据存储目录
# 生成记录元数据的文件fsimage
# 生成集群的相关标识:如:集群id——clusterID等,再次初始化时变更。

 

        已生成datanode数据后,初始化namenode,会导致2者的clusterID不一致而无法启动dataNode.

解决方法:

修改以下文件内的clusterID,保持一致即可

vi /root/dfs/data/current/VERSION

vi /root/dfs/data/current/VERSION

2.2.2 启动namenode进程(在master上)

  hadoop-daemon.sh start namenode
  # 可以浏览器访问namenode提供的web端口:50070

2.2.3 启动多个datanode(在任意节点)

  hadoop-daemon.sh start datanode

2.2.4 用自动批量启动脚本来启动HDFS

先配置master到集群中所有节点(包含自己)的免密登陆

修改hadoop安装目录中/etc/hadoop/slaves(把需要启动datanode进程的节点列入)

hdp-01
hdp-02
hdp-03
hdp-04

master上执行:(或同步所有节点/profile文件及互相之间的免密登录后,任意节点执行)

  start-dfs.sh
  stop-dfs.sh

2.3 hdfs的客户端操作

hdfs的客户端有多种形式:网页形式、命令行形式、客户端在哪里运行,没有约束,只要运行客户端的机器能够跟hdfs集群联网

文件的切块大小和存储的副本数量,都是由客户端决定,是通过配置参数来定的

切块大小的参数:dfs.blocksize

副本数量的参数:dfs.replication

上面两个参数应该配置在客户端机器的hadoop目录中的hdfs-site.xml中配置

  <property>
  <name>dfs.blocksize</name>
  <value>64m</value>
  </property>
  <property>
  <name>dfs.replication</name>
  <value>2</value>
  </property>

2.3.1 hdfs命令行客户端的常用操作命令

  hadoop fs -ls /hdfs路径   # 查看hdfs中的目录信息
​
  hadoop fs -put /本地文件  /aaa   # 上传文件到hdfs中
  hadoop fs -copyFromLocal /本地文件  /hdfs路径   # copyFromLocal等价于 put
  hadoop fs -moveFromLocal /本地文件  /hdfs路径   # 跟copyFromLocal的区别是:从本地移动到hdfs中
​
  hadoop fs -get /hdfs中的路径   /本地磁盘目录  # 下载文件到客户端本地磁盘
  hadoop fs -copyToLocal /hdfs中的路径 /本地磁盘路径   # 跟get等价
  hadoop fs -moveToLocal /hdfs路径  /本地路径  # 从hdfs中移动到本地
​
  hadoop fs -mkdir  -p /aaa/xxx   # 在hdfs中创建文件夹
​
  hadoop fs -mv /hdfs的路径  /hdfs的另一个路径   # 移动hdfs中的文件(更名)
  hadoop fs -cp /hdfs的路径  /hdfs的另一个路径   # 复制hdfs中的文件(更名)
​
  hadoop fs -rm -r /aaa     #删除hdfs中的文件或文件夹
  hadoop fs -chown user:group /aaa  #  修改文件的用户、组   可设置系统不存在的用户和组,与linux不同
  hadoop fs -chmod 700 /aaa         #  修改文件的权限
  hadoop fs -appendToFile /本地文件   /hdfs中的文件   #  追加内容到已存在的文件
  hadoop fs -cat /hdfs中的文件    # 显示文本文件内容
  hadoop fs -tail /hdfs中的文件   # 显示文本文件尾部内容  -f实时  默认20行 没有-n 控制行数功能

 

2.3.2 hdfs的java客户端编程

将hdfs客户端开发所需的jar导入工程

\common\hadoop-common-2.10.0.jar
\common\lib
\hdfs\hadoop-hdfs-2.10.0
\hdfs\hadoop-hdfs-client-2.10.0
\hdfs\lib

hdfs文件客户端创建

public static void main(String[] args) throws Exception {
    /**
     * Configuration参数对象的机制:
     *    构造时,会加载jar包中的默认配置 xx-default.xml
     *    再加载 用户配置xx-site.xml  ,覆盖掉默认参数
     *    构造完成之后,还可以conf.set("p","v"),会再次覆盖用户配置文件中的参数值
     */
    // new Configuration()会从项目的classpath中加载core-default.xml hdfs-default.xml core-site.xml hdfs-site.xml等文件
    Configuration conf = new Configuration();
​
    // 指定本客户端上传文件到hdfs时需要保存的副本数为:2
    conf.set("dfs.replication", "2");
    // 指定本客户端上传文件到hdfs时切块的规格大小:64M
    conf.set("dfs.blocksize", "64m");
​
    // 构造一个访问指定HDFS系统的客户端对象: 参数1:——HDFS系统的URI,参数2:——客户端要特别指定的参数,参数3:客户端的身份(用户名)
    FileSystem fs = FileSystem.get(new URI("hdfs://master:9000/"), conf, "root");
​
    // 上传一个文件到HDFS中
    fs.copyFromLocalFile(new Path("D:/jdk-8u141-linux-x64.tar"), new Path("/aaa/"));
​
    fs.close();
  }


fs.copyToLocalFile(new Path("/hdp20-05.txt"), new Path("f:/"));  //从HDFS中下载文件到客户端本地磁盘
  
fs.rename(new Path("/install.log"), new Path("/aaa/in.log"));   //在hdfs内部移动文件\修改名称
  
fs.mkdirs(new Path("/xx/yy/zz"));    //在hdfs中创建文件夹
  
fs.delete(new Path("/aaa"), true);   //在hdfs中删除文件或文件夹
  
//查询hdfs指定目录下的文件信息
RemoteIterator<LocatedFileStatus> iter = fs.listFiles(new Path("/"), true);  
while(iter.hasNext()){
LocatedFileStatus status = iter.next();
System.out.println("文件全路径:"+status.getPath());
System.out.println("块大小:"+status.getBlockSize());
System.out.println("文件长度:"+status.getLen());
System.out.println("副本数量:"+status.getReplication());
System.out.println("块信息:"+Arrays.toString(status.getBlockLocations()));
}

 

2.3.3 hadoop 在 windons 上操作需先修改以下内容:

1)下载winutils工具

https://github.com/steveloughran/winutils

解压后选择就近版本的hadoop/bin 替换Hadoop安装包下的/bin目录

2)配置环境变量

HADOOP_HOME  E:\hadoop-2.10.0  #hadoop安装目录

PATH  ;E:\hadoop-2.10.0\bin    #hadoop/bin目录

Java环境变量配置不赘述

主要配置文件

core-default.xml 
hdfs-default.xml
core-site.xml 
hdfs-site.xml

 

后续分享<hdfs工作原理>

发布了10 篇原创文章 · 获赞 1 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/Snowing_inhope/article/details/105555359