大数据分布式存储操作

大数据分布式存储操作
1.搭建集群
角色=进程
搭建集群的模式分为三种:
①伪分布式
在一台服务器上,启动多个进程,分别表示多个角色
②完全分布式
在多台服务器上,每台服务器启动不同角色的进程,使用多台服务器组成HDFS集群
block副本数+自己本身<=DataNode节点数
③高可用的完全分布式
因为namenode有可能会挂掉,所以在这中模式中,会对namenode做一个备份
2.搭建伪分布式
(1) 配置免密登录 node01->node01
① ssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsa
② ssh-copy-id -i ~/.ssh/id_rsa.pub root@node01
(2) 配置JDK
① export JAVA_HOME=/opt/software/jdk/jdk1.8.0_151
② export PATH=$PATH:$JAVA_HOME/bin
(3) 修改hdfs-site.xml配置文件

	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>

	<property>     
		<name>dfs.namenode.secondary.http-address</name>
		<value>node01:50090</value>
	</property>

(4)	修改core-site.xml配置文件
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://node01:9000</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/var/abc/hadoop/local</value>
	</property>

(5)	修改slaves配置文件
	修改为node01
(6)	格式化NameNode(创建目录以及文件)     hdfs namenode -format
(7)	启动HDFS   start-dfs.sh
(8)	操作HDFS文件系统 
	①	创建目录 hdfs dfs -mkdir -p /user/root
	②	上传文件 hdfs dfs -put 如果存储的文件不足128M,那么该是多大就是多大,不会是128M
	③	删除目录 hdfs dfs -rm
	④	查看文件内容 hdfs dfs -cat(但是在实际情况中并不会用这个命令,以为它会直接加载所有的内容)
			    hdfs dfs -cat | more(常用)

猜你喜欢

转载自blog.csdn.net/dmbds20/article/details/82988909