我的大数据学习历程(1)

作为从业接近3年的程序猿,终于决定自己写点东西。就从自己最近学的大数据开始吧。

跟着教程学习hadoop:

1.先是bababa一堆大数据的前景,就是数据已经到了DB时代,大数据很有前途。

2.接着便是hadoop的核心:数据的分布式存储,数据的计算。

3.hadoop的安装:

一.首先是 jdk的安装与配置。(这里就不多介绍了,楼主学习用的linux-centOS系统学习的)

二.hadoop安装:

a.下载hadoop,(hadoop-2.7.1.tar.gz) 

apache.org 官网--project--hadoop--download--releases--binary--选择镜像并下载。

b.解压 tar -zxvf hadoop.2.7.1.tar.gz 

c.移至/usr/soft目录下 mv hadoop-2.7.1 /usr/soft/

d.配置环境变量

vim /etc/profile

HADOOP_INSTALL=/usr/soft/hadoop-2.7.1

PATH="/usr/soft/hadoop-2.7.1/bin:/usr/soft/hadoop-2.7.1/sbin"

export PATH

让配置及时生效  source /etc/profile

d.进入etc目录下    cd /usr/soft/hadoop-2.7.1/etc

hadoop_alone就是独立模式的配置,需要伪分布或者完全分布式的话就需要配置这个文件夹下面的

core-site.xml、hdfs-site.xml、yarn-site.xml、maprd-site.xml文件,

这些文件。一般情况下我们复制,两个文件夹:hadoop_pseude、hadoop_full ,分别代表伪分布式和完全分布式,需要布置哪个模式,就创建一个软链接hadoop指 向这个连接 link -s hadoop_full hadoop

直接启动,就是独立模式下的hadoop(就是一台主机的模式)

执行start-all.sh 启动hadoop(hadoop的etc目录下需要有hadoop文件夹)

独立模式:没有守护进程,在单机上运行

伪分布式:模拟分布式(也是运行在一台主机上)

完全分布式:运行在多台主机上

猜你喜欢

转载自blog.csdn.net/hello_csdn_world/article/details/74852617