Hadoop部分
一、修改Hostname
命令:[root@hadoop01 ~] vi /etc/sysconfig/network
打开文件后,(每个虚拟机主机名不同)
NETWORKING=yes #使用网络
HOSTNAME=hadoop01 #设置主机名
二、赋予虚拟机ip地址
根目录下 : vi reset_ip.sh
me=$(cat /etc/udev/rules.d/70-persistent-net.rules |grep -oP '(?<=NAME=").*(?=")'|tail -1)
mac=$(cat /etc/udev/rules.d/70-persistent-net.rules |grep -oP '(?<=ATTR{address}==").*?(?=",)'|tail -1)
sed -i s/DEVICE.*/DEVICE=${name}/ /etc/sysconfig/network-scripts/ifcfg-eth0
sed -i s/HWADDR=.*/HWADDR=${mac}/ /etc/sysconfig/network-scripts/ifcfg-eth0
service network restart
改变该文件执行权限 chmod u+x reset_ip.sh
运行文件 reset_ip.sh
三、配置Host(关联主机名和ip地址 每个虚拟机的关联都要有)
命令:[root@hadoop01 ~] vi /etc/hosts
添加hosts: 192.168.126.129 hadoop01
四、关闭防火墙
检查防火墙状态
[root@hadoop01 ~]# service iptables status
关闭防火墙
[root@hadoop01 ~]# chkconfig iptables off
reboot重启虚拟机
五、安装jdk
(1)使用winsp将jdk1.8保存到 linux /opt/modules/jdk1.8.tar.gz
[root@hadoop01 /]# tar -zxvf jdk-8u172-linux-x64.tar.gz -C /opt/modules
(2)添加环境变量
设置JDK的环境变量 JAVA_HOME。需要修改配置文件/etc/profile,追加
export JAVA_HOME="/opt/modules/jdk1.7.0_67"
export PATH=$JAVA_HOME/bin:$PATH
修改完毕后,执行 source /etc/profile
(3)安装后再次执行 java –version 查看安装状态
六、Hadoop部署
1.Hadoop部署模式
Hadoop部署模式有:本地模式、伪分布模式、完全分布式模式。
区分的依据是NameNode、DataNode、ResourceManager、NodeManager等模块运行在几个JVM进程、几个机器。
模式名称 | 各个模块占用的JVM进程数 | 各个模块运行在几个机器数上 |
---|---|---|
本地模式 | 1个 | 1个 |
伪分布式模式 | N个 | 1个 |
完全分布式模式 | N个 | N个 |
2.配置Hadoop
2.1 配置Hadoop环境变量
[root@hadoop01 ~]# vi /etc/profile
export HADOOP_HOME="/opt/modules/hadoop-2.5.0"
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
执行:source /etc/profile 使得配置生效
验证HADOOP_HOME参数:
[root@hadoop01 /]$ echo $HADOOP_HOME
/opt/modules/hadoop-2.5.0
2.2 配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh文件的JAVA_HOME参数
[root@hadoop01 ~]$ sudo vi ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh
修改JAVA_HOME参数为:
export JAVA_HOME="/opt/modules/jdk1.7.0_67"
2.3 配置core-site.xml
(1)创建目录:
[root@hadoop01 ~]$ mkdir -p /opt/modules/app/hadoop/data/tmp
[hadoop@bigdata-senior01 ~] vi {HADOOP_HOME}/etc/hadoop/core-site.xml
(2) fs.defaultFS参数配置的是HDFS的地址。
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop01:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/modules/app/hadoop/data/tmp</value>
</property>
2.4 配置hdfs-site.xml
[root@hadoop01 ~]$ vi /opt/modules/app/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop03:50090</value>
</property>
</configuration>
2.5 配置slaves
[root@hadoop01 ~]$ vi etc/hadoop/slaves
hadoop01
hadoop02
hadoop03
slaves文件是指定HDFS上有哪些DataNode节点。
2.6 配置yarn-site.xml
[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop02</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>106800</value>
</property>
根据规划yarn.resourcemanager.hostname
这个指定resourcemanager服务器指向bigdata-senior02.chybinmy.com
。
yarn.log-aggregation-enable
是配置是否启用日志聚集功能。
yarn.log-aggregation.retain-seconds
是配置聚集的日志在HDFS上最多保存多长时间。
2.7 配置mapred-site.xml
从mapred-site.xml.template复制一个mapred-site.xml文件。
[hadoop@bigdata-senior01 hadoop-2.5.0]$ cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>haoop01:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>bigdata-senior01.chybinmy.com:19888</value>
</property>
</configuration>
mapreduce.framework.name设置mapreduce任务运行在yarn上。
mapreduce.jobhistory.address是设置mapreduce的历史服务器安装在BigData01机器上。
mapreduce.jobhistory.webapp.address是设置历史服务器的web页面地址和端口号。
3 设置SSH无密码登录
3.1在hadoop01上生成公钥
ssh-keygen -t rsa
3.2下载服务器客户端
yum -y install openssh-server openssh-clients
3.3 分发公钥
[root@hadoop01 ~]$ ssh-copy-id hadoop01
[root@hadoop01 ~]$ ssh-copy-id hadoop02
[root@hadoop01 ~]$ ssh-copy-id hadoop03
3.4 设置hadoop02、hadoop03到其他机器的无密钥登录
同样的在hadoop02、hadoop03上生成公钥和私钥后,将公钥分发到三台机器上。
3.5 在其他两台机器上创建存放Hadoop的目录 并将hadoop01 的Hadoop目录下所有文件拷贝到app下
[hadoop@bigdata-senior02 ~]$ mkdir /opt/modules/app
[hadoop@bigdata-senior03 ~]$ mkdir /opt/modules/app
4 格式NameNode
在NameNode机器上执行格式化:
[root@hadoop01 ~]$ /opt/modules/app/hadoop/bin/hdfs namenode –format
注意:
如果需要重新格式化NameNode,需要先将原来NameNode和DataNode下的文件全部删除,不然会报错,NameNode和DataNode所在目录是在core-site.xml
中hadoop.tmp.dir
、dfs.namenode.name.dir
、dfs.datanode.data.dir
属性配置的。
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/tmp</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file://${hadoop.tmp.dir}/dfs/data</value>
</property>
因为每次格式化,默认是创建一个集群ID,并写入NameNode和DataNode的VERSION文件中(VERSION文件所在目录为dfs/name/current 和 dfs/data/current),重新格式化时,默认会生成一个新的集群ID,如果不删除原来的目录,会导致namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID,不一致时会报错。
另一种方法是格式化时指定集群ID参数,指定为旧的集群ID。
5 启动集群
5.1 启动HDFS(namenode datanode secondarynamenode)
[root@hadoop01 ~]$ start-dfs.sh
enter image description here
5.2 启动YARN(resourcemanager nodemanager)
[root@hadoop02]$ start-yarn.sh
5.3 启动日志服务器(historyserver)
因为我们规划的是在BigData03服务器上运行MapReduce日志服务,所以要在BigData03上启动。
[root@hadoop01 ~]$ mr-jobhistory-daemon.sh start historyserver
5.4 查看HDFS Web页面
http://bigdata-senior01.chybinmy.com:50070/
5.5 查看YARN Web 页面
http://bigdata-senior02.chybinmy.com:8088/cluster
6 测试Job
我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。
6.1 准备mapreduce输入文件wc.input
[root@hadoop01 ~]$ cat /opt/data/wc.input
hadoop mapreduce hive
hbase spark storm
sqoop hadoop hive
spark hadoop
6.2 在HDFS创建输入目录input
[root@hadoop01 ~]$ bin/hdfs dfs -mkdir /input
6.3 将wc.input上传到HDFS
[root@hadoop01 ~]$ bin/hdfs dfs -put /opt/data/wc.input /input/wc.input
6.4 运行hadoop自带的mapreduce Demo
[root@hadoop01 ~]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/wc.input /output
enter image description here
6.5 查看输出文件
[root@hadoop01 ~]$ bin/hdfs dfs -ls /output
Found 2 items
-rw-r--r-- 3 hadoop supergroup 0 2016-07-14 16:36 /output/_SUCCESS
-rw-r--r-- 3 hadoop supergroup 60 2016-07-14 16:36 /output/part-r-00000
HDFS (分布式文件系统)
基本原理 https://www.jianshu.com/p/f8f074ae7839
一、NameNode启动时如何维护元数据:
1、概念介绍:
Edits文件:NameNode在本地操作hdfs系统的文件都会保存在Edits日志文件中。也就是说当文件系统中的任何元数据产生操作时,都会记录在Edits日志文件中。eg:在HDFS上创建一个文件,NameNode就会在Edits中插入一条记录。同样如果修改或者删除等操作,也会在Edits日志文件中新增一条数据。
FsImage映像文件:包括数据块到文件的映射,文件的属性等等,都存储在一个称为FsImage的文件中,这个文件也是放在NameNode所在的文件系统中。
2、流程介绍:
①、加载fsimage映像文件到内存
②、加载edits文件到内存
③、在内存将fsimage映像文件和edits文件进行合并
④、将合并后的文件写入到fsimage中
⑤、清空原先edits中的数据,使用一个空的edits文件进行正常操作
3、流程图分析:
4、疑问
因为NameNode只有在启动的阶段才合并fsimage和edits,那么如果运行时间长了,edits文件可能会越来越大,在下一次启动NameNode时会花很长的时间,请问能否让fsimage映像文件和edits日志文件定期合并呢?
答案肯定是可以的,为了解决这个问题我们就要用到Secondary NameNode了,Secondary NameNode主要的作用是什么呢?他是如何将fsimage和edits进行合并的呢?带着疑问再次进行分析。
二、Secondary NameNode工作流程:
1、Secondary NameNode和NameNode的区别:
NameNode:
①、存储文件的metadata,运行时所有数据都保存在内存中,这个的HDFS可存储的文件受限于NameNode的内存。
②、NameNode失效则整个HDFS都失效了,所以要保证NameNode的可用性。
Secondary NameNode:
①、定时与NameNode进行同步,定期的将fsimage映像文件和Edits日志文件进行合并,并将合并后的传入给NameNode,替换其镜像,并清空编辑日志。如果NameNode失效,需要手动的将其设置成主机。
②、Secondary NameNode保存最新检查点的目录和NameNode的目录结构相同。所以NameNode可以在需要的时候应用Secondary NameNode上的检查点镜像。
2、什么时候checkpoint
①、连续两次的检查点最大时间间隔,默认是3600秒,可以通过配置“fs.checkpoint.period”进行修改
②、Edits日志文件的最大值,如果超过这个值就会进行合并即使不到1小时也会进行合并。可以通过“fs.checkpoint.size”来配置,默认是64M;
3、Secondary NameNode的工作流程
①、NameNode通知Secondary NameNode进行checkpoint。
②、Secondary NameNode通知NameNode切换edits日志文件,使用一个空的。
③、Secondary NameNode通过Http获取NmaeNode上的fsimage映像文件(只在第一次的时候)和切换前的edits日志文件。
④、Secondary NameNode在内容中合并fsimage和Edits文件。
⑤、Secondary NameNode将合并之后的fsimage文件发送给NameNode。
⑥、NameNode用Secondary NameNode 传来的fsImage文件替换原先的fsImage文件。
4、流程图分析:
二、java api操作HDFS
如果是使用maven的话,导入如下依赖即可,否则需要在解压好的hadoop文件夹下找到common文件夹和hdfs文件夹下的jar包
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.8.3</version>
</dependency>
可能出现的问题如下:
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=ttc, access=WRITE, inode="/":root:supergroup:drwxr-xr-x
解决办法
System.setProperty("HADOOP_USER_NAME", "root") ;
要进行操作,主要得先拿到客户端对象
public class HdfsClient {
Configuration conf = null;
FileSystem fileSystem = null;
@Before
public void init() throws Exception{
conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://192.168.47.140:8020");
fileSystem = FileSystem.get(conf);
}
}
解释:我们的操作目标是HDFS,所以获取到的fs对象应该是DistributedFileSystem的实例;get方法是从何处判断具体实例化那种客户端类呢?
——从conf中的一个参数 fs.defaultFS的配置值判断;
如果我们的代码中没有指定fs.defaultFS,并且工程classpath下也没有给定相应的配置,conf中的默认值就来自于hadoop的jar包中的core-default.xml,默认值为: file:///,则获取的将不是一个DistributedFileSystem的实例,而是一个本地文件系统的客户端对象。那么本地(一般我们使用的就是windows)需要安装配置hadoop,还要编译,配置环境变量,会比较麻烦,所以我们连接到linux。
关于conf.set(name,value)是设置配置参数的,也可以在classpath下加入配置文件hdfs-default.xml进行配置,或者使用jar包中的配置(默认的),优先级是由高到低。
比如con.set(“dfs.replication”,4),配置文件中配置的副本为2,包中默认的是3,最后副本数量是4。
1、测试文件上传
/**
* 测试上传
* d:/mylog.log传到hdfs路径/mylog.log.copy
* @throws Exception
*/
@Test
public void testUpload() throws Exception{
fileSystem.copyFromLocalFile(new Path("d:/mylog.log"), new Path("/mylog.log.copy"));
fileSystem.close();
}
页面查看效果
这里写图片描述
2、测试下载文件,将刚上传的/mylog.log.copy下载到本地指定位置
/**
* 测试下载
* 第一个参数表示是否删除源文件,即:剪切+粘贴
* 最后一个参数表示是否使用本地文件系统,不使用的话会使用io,如果本地没配置hadoop的话会出现空指针异常。
* @throws Exception
*/
@Test
public void testdownLoad() throws Exception{
fileSystem.copyToLocalFile(true, new Path("/mylog.log.copy"), new Path("d:/zz.log"),
true);
fileSystem.close();
}
3、获取配置参数
/**
* 获取配置参数:获取的是jar包中配置的,服务端配置的是不起作用的
* 但是可以使用配置文件或者用cong.set()来指定
* 比如副本数量 dfs.replication,3
* @throws Exception
*/
@Test
public void testConfiguration() throws Exception{
Iterator<Entry<String, String>> it = conf.iterator();
while (it.hasNext()){
Entry<String, String> entry = it.next();
System.out.println(entry.getKey()+","+entry.getValue());
}
fileSystem.close();
}
4、测试创建文件夹,可以创建多层
/**
* 测试创建文件夹 可以是多层
* @throws Exception
*/
@Test
public void testMkdir() throws Exception{
boolean b = fileSystem.mkdirs(new Path("/djhot/cls"));
System.out.println("文件夹是否创建成功:" + b);
fileSystem.close();
}
5、测试删除文件或文件夹
/**
* 测试删除文件夹或文件,第二个参数用true则表示递归删除
* @throws Exception
*/
@Test
public void testDelete() throws Exception{
boolean b = fileSystem.delete(new Path("/djhot"),true);
System.out.println("文件夹是否删除:" + b);
boolean c = fileSystem.delete(new Path("/cenos-6.5-hadoop-2.6.4.tar.gz"),true);
System.out.println("文件是否删除:" + c);
fileSystem.close();
}
5、列出所有文件以及相关信息
:/wordcount/output/a.txt,/wordcount/output/b.txt,/wordcount/input/a.txt,/wordcount/input/b.txt,
/**
* 列出指定文件夹下的所有文件,第二个参数true表示递归列出
* 每次拿到的只有一个文件,如果不使用迭代器一次拿太多内存吃不消
* @throws Exception
*/
@Test
public void testListfiles() throws Exception{
RemoteIterator<LocatedFileStatus> files = fileSystem.listFiles(new Path("/wordcount"), true);//true表示递归
while(files.hasNext()){
LocatedFileStatus fileStatus = files.next();
System.out.println("blockSize"+fileStatus.getBlockSize());
System.out.println("owner:"+fileStatus.getOwner());
System.out.println("replication:"+fileStatus.getReplication());
//文件路径
System.out.println("path:"+fileStatus.getPath());
//文件名
System.out.println("name:"+fileStatus.getPath().getName());
//关于block块的一些信息
BlockLocation[] blockLocations = fileStatus.getBlockLocations();
for (BlockLocation block : blockLocations) {
System.out.println("块大小:"+block.getLength());
System.out.println("偏移量:"+block.getOffset());
String[] hosts = block.getHosts();
for (String host : hosts) {
System.out.println("所在datanode:"+host);
}
}
System.out.println("------------");
}
fileSystem.close();
}
输出:
blockSize134217728
owner:root
replication:2
path:hdfs://192.168.25.127:9000/wordcount/input/a.txt
name:a.txt
块大小:71
偏移量:0
所在datanode:mini2
所在datanode:mini3
------------
blockSize134217728
owner:root
replication:2
path:hdfs://192.168.25.127:9000/wordcount/input/b.tx
name:b.tx
块大小:71
偏移量:0
所在datanode:mini2
所在datanode:mini3
------------
blockSize134217728
owner:root
replication:2
path:hdfs://192.168.25.127:9000/wordcount/output/_SUCCESS
name:_SUCCESS
------------
blockSize134217728
owner:root
replication:2
path:hdfs://192.168.25.127:9000/wordcount/output/part-r-00000
name:part-r-00000
块大小:75
偏移量:0
所在datanode:mini2
所在datanode:mini3
------------
6、列出指定目录下的文件或文件夹,不会递归
/**
* 列出指定目录下的文件夹或文件 并不会递归
* @throws Exception
*/
@Test
public void testListStatus() throws Exception{
FileStatus[] listStatus = fileSystem.listStatus(new Path("/wordcount"));
for (FileStatus fileStatus : listStatus) {
System.out.println("path:"+fileStatus.getPath());
System.out.println("name:"+fileStatus.getPath().getName());
}
System.out.println("---------------------");
FileStatus[] listStatus2 = fileSystem.listStatus(new Path("/wordcount/input"));
for (FileStatus fileStatus : listStatus2) {
System.out.println("path:"+fileStatus.getPath());
System.out.println("name:"+fileStatus.getPath().getName());
}
}
输出
path:hdfs://192.168.25.127:9000/wordcount/input
name:input
path:hdfs://192.168.25.127:9000/wordcount/output
name:output
---------------------
path:hdfs://192.168.25.127:9000/wordcount/input/a.txt
name:a.txt
path:hdfs://192.168.25.127:9000/wordcount/input/b.tx
name:b.tx
7 、使用流进行文件读写
/**
* 用流的方式来操作hdfs上的文件,可以实现读取指定偏移量范围的数据
* @author 12706
*
*/
public class HdfsStreamAccess {
Configuration conf=null;
FileSystem fs=null;
@Before
public void init() throws Exception{
conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://192.168.25.127:9000");
fs = FileSystem.get(conf);
}
/**
* 通过流,将本地文件D:/liushishi.love写到hdfs下的/liushishi.love
* @throws Exception
*/
@Test
public void testUpload() throws Exception{
FSDataOutputStream outputStream = fs.create(new Path("/liushishi.love"), true);//有就覆盖
FileInputStream inputStream = new FileInputStream("D:/liushishi.love");
IOUtils.copy(inputStream, outputStream);
}
/**
* 通过流,将hdfs下的/liushishi.love文件,写到本地文件D:/liushishi.love2
* @throws Exception
*/
@Test
public void testDownload() throws Exception{
FSDataInputStream inputStream = fs.open(new Path("/liushishi.love"));
FileOutputStream outputStream = new FileOutputStream("D:/liushishi.love2");
IOUtils.copy(inputStream, outputStream);
}
/**
* 指定位置开始写
* @throws Exception
*/
@Test
public void testRandomAccess() throws Exception{
FSDataInputStream inputStream = fs.open(new Path("/liushishi.love"));
//FileInoutStream是没有这个方法的,定位到第12个字节处
inputStream.seek(12);
FileOutputStream outputStream = new FileOutputStream("D:/liushishi.love2");
//从第12个字节写到文件末
IOUtils.copy(inputStream, outputStream);
}
/**
* 将hdfs指定文件内容输出到控制台
* @throws Exception
*/
@Test
public void testCat() throws Exception{
FSDataInputStream inputStream = fs.open(new Path("/liushishi.love"));
IOUtils.copy(inputStream, System.out);
}
三、shell命令操作hdfs
1、文件上传 -put
[root@mini3 ~]# echo duanchangrenzaitianya > cangmumayi.avi
//将cangmumayi.avi上传到hdfs文件系统的根目录下
[root@mini3 ~]# hadoop fs -put cangmumayi.avi /
hadoop是表示hadoop操作,fs表示hdfs,后面与linux命令差不多,会多出”-“。
注:上传的时候会根据配置
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
来备份2份,存放在指定的工作目录下/root/hadoop/hdpdata(名称会变,藏的也很深)
<property>
指定进行工作的数据目录
<name>hadoop.tmp.dir</name>
<value>/root/hadoop/hdpdata</value>
</property>
比如我这里是三台进行集群,其中两个是datanode,那么在这两台都进行了备份,如果是三台datanode,那么其中有两台备份另外一台没有。
可以去页面查看
这里写图片描述
2、下载 -get
[root@mini3 ~]# rm -r cangmumayi.avi
rm:是否删除普通文件 "cangmumayi.avi"?yes
[root@mini3 ~]# ll
总用量 60
-rw-------. 1 root root 1131 9月 6 19:41 anaconda-ks.cfg
drwxr-xr-x. 4 root root 4096 9月 30 21:55 apps
drwxr-xr-x. 3 root root 4096 10月 1 19:29 hadoop
-rw-r--r--. 1 root root 12526 9月 6 19:41 install.log
-rw-r--r--. 1 root root 3482 9月 6 19:41 install.log.syslog
drwxr-xr-x. 2 root root 4096 9月 12 21:06 mini1
drwxr-xr-x. 3 root root 4096 9月 24 06:26 zkdata
-rw-r--r--. 1 root root 19113 9月 23 18:33 zookeeper.out
[root@mini3 ~]# hadoop fs -get /cangmumayi.avi
[root@mini3 ~]# ll
总用量 64
-rw-------. 1 root root 1131 9月 6 19:41 anaconda-ks.cfg
drwxr-xr-x. 4 root root 4096 9月 30 21:55 apps
-rw-r--r--. 1 root root 22 10月 3 21:21 cangmumayi.avi
drwxr-xr-x. 3 root root 4096 10月 1 19:29 hadoop
-rw-r--r--. 1 root root 12526 9月 6 19:41 install.log
-rw-r--r--. 1 root root 3482 9月 6 19:41 install.log.syslog
drwxr-xr-x. 2 root root 4096 9月 12 21:06 mini1
drwxr-xr-x. 3 root root 4096 9月 24 06:26 zkdata
-rw-r--r--. 1 root root 19113 9月 23 18:33 zookeeper.out
3、查看文件内容 -cat
[root@mini3 ~]# hadoop fs -cat /cangmumayi.avi
duanchangrenzaitianya
注:(1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M。
比如:我上传了一个hadoop(>128M)到hdfs中,假设有三个datanode,那么文件会切分为2个文件,存到其中两个hadoop的工作的数据目录中,假设编号分别为100026,100027,由于备份是2,那么同时第三个的工作数据目录中会存在100026,100027两个文件。但是下载的时候会自动给我们拼出来而不用我们收到去拼完整。
4、查看目录信息 -ls
[root@mini3 ~]# hadoop fs -ls /
-rw-r--r-- 2 root supergroup 22 2017-10-03 21:12 /cangmumayi.avi
5、创建文件夹 -mkdir
[root@mini3~]# hadoop fs -mkdir -p /wordcount/input(-p表示创建多级目录),页面查看可以看到多了个文件夹
6、从本地剪切到hdfs -moveFromLocal
[root@mini3 ~]# hadoop fs -moveFromLocal a.txt /
[root@mini3 ~]# hadoop fs -ls /
-rwxrwxrwx 3 root supergroup 85 2017-10-02 19:45 /a.txt
-rw-r--r-- 2 root supergroup 22 2017-10-03 21:12 /cangmumayi.avi
7、追加一个文件内容到已经存在的文件末尾 -appendToFile
[root@mini3 ~]# echo xxxxoooooxxoo > xxoo.txt
[root@mini3 ~]# hadoop fs -appendToFile xxoo.txt /a.txt
[root@mini3 ~]# hadoop fs -cat /a.txt
xiaoyu is a god
xiaoyu is beautiful
xioayu is my zhinv
xiaonv is smart
xxxxoooooxxoo
8、改权限和改组 -chgrp,-chmod,-chown
[root@mini2 ~]# hadoop fs -chmod 777 /a.txt
[root@mini2 ~]# hadoop fs -ls /
-rwxrwxrwx 2 root supergroup 85 2017-10-02 19:45 /a.txt
-rw-r--r-- 2 root supergroup 7 2017-10-01 20:22 /canglaoshi_wuma.avi
drwx------ - root supergroup 0 2017-10-01 23:36 /tmp
drwxr-xr-x - root supergroup 0 2017-10-02 19:31 /wordcount
[root@mini2 ~]# hadoop fs -chown angelababy:mygirls /canglaoshi_wuma.avi
[root@mini2 ~]# hadoop fs -ls /
-rwxrwxrwx 2 root supergroup 85 2017-10-02 19:45 /a.txt
-rw-r--r-- 2 angelababy mygirls 7 2017-10-01 20:22 /canglaoshi_wuma.avi
drwx------ - root supergroup 0 2017-10-01 23:36 /tmp
drwxr-xr-x - root supergroup 0 2017-10-02 19:31 /wordcount
hdfs弱的权限控制不会管权限是否合法的
9、合并下载多个文件 -getmerge,/wordcount/input文件夹下有a.txt和b.txt文件
[root@mini2 ~]# hadoop fs -getmerge '/wordcount/input/*.*' merg.file
[root@mini2 ~]# ll
总用量 17352
-rw-------. 1 root root 1131 9月 12 03:59 anaconda-ks.cfg
drwxr-xr-x. 4 root root 4096 9月 30 21:55 apps
-rw-r--r--. 1 root root 71 10月 1 21:01 b.tx
-rw-r--r--. 1 root root 7 10月 1 20:20 canglaoshi_wuma.avi
drwxr-xr-x. 3 root root 4096 10月 1 19:26 hadoop
-rw-r--r--. 1 root root 12526 9月 12 03:59 install.log
-rw-r--r--. 1 root root 3482 9月 12 03:59 install.log.syslog
-rw-r--r--. 1 root root 142 10月 2 19:57 merg.file
-rw-r--r--. 1 root root 14 10月 2 19:45 xxoo.txt
drwxr-xr-x. 3 root root 4096 9月 12 19:31 zkdata
-rw-r--r--. 1 root root 17699306 6月 20 15:55 zookeeper-3.4.6.tar.gz
-rw-r--r--. 1 root root 11958 9月 23 18:33 zookeeper.out
10、统计文件夹的大小信息 -du
[root@mini2 ~]# du -sh * linxu命令,为了形成与hadoopshell操作的对比
4.0K anaconda-ks.cfg
266M apps
4.0K b.tx
4.0K canglaoshi_wuma.avi
16M hadoop
16K install.log
4.0K install.log.syslog
4.0K merg.file
4.0K xxoo.txt
152K zkdata
17M zookeeper-3.4.6.tar.gz
12K zookeeper.out
[root@mini2 ~]# hadoop fs -du -s -h hdfs://mini1:9000/*
85 hdfs://mini1:9000/a.txt
7 hdfs://mini1:9000/canglaoshi_wuma.avi
22 hdfs://mini1:9000/cangmumayi.avi
13.5 M hdfs://mini1:9000/tmp
217 hdfs://mini1:9000/wordcount
hadoop fs -du -s /*这样写会出现bug,出现的是linux下的文件大小
11、设置副本的数量 -setrep
[root@mini2 ~]# hadoop fs -setrep 3 /a.txt
Replication 3 set: /a.txt
12、从本地文件系统中拷贝文件到hdfs路径去 -copyFromLocal
hadoop fs -copyFromLocal a.txt /wordcount
13、从hdfs拷贝到本地 -copyToLocal
14、从hdfs的一个路径拷贝hdfs的另一个路径 -cp
hadoop fs -cp /wordcount/a.txt /bbb/b.txt
15、在hdfs目录中移动文件 -mv
hadoop fs -mv /wordcount/a.txt /
16、删除文件或者文件夹 -rm
hadoop fs -rm -r /aaa/a.txt
17、统计文件系统的可用空间信息 -df
hadoop fs -df -h /
能看出hadoop的shell操作与linux命令大部分都是一样的。
而对于操作是否成功很多都是可以直接在页面看到。