大数据架构总览

需要的安装包地址

Hadoop:
http://www.apache.org/dyn/closer.cgi/hadoop/common
JDK:
http://www.oracle.com/technetwork/java/javase/downloads
HBase
http://mirror.bit.edu.cn/apache/hbase/
Zookeeper
http://mirror.bit.edu.cn/apache/zookeeper/
Hive
http://mirror.bit.edu.cn/apache/hive/
Kafka
http://kafka.apache.org/downloads
Storm
http://storm.apache.org/downloads.html

系统前期准备

系统选用

使用centos7，64位服务器，理论上讲64位的linux发行版都是可以的。

修改hostname，添加ip映射

vim /etc/sysconfig/network

NETWORKING=yes
HOSTNAME=master不同的主机不同的名称

vim /etc/hostname,要么sudo hostname master，然后重启。
vim /etc/cloud/templates/hosts.redhat.tmpl
例如添加一行：

172.16.xxx.xxx master
172.16.xxx.xxx slave1
172.16.xxx.xxx slave2

修改完记得ping一下
不要在127.0.0.1后面添加master或者slave，否则会出现hadoop集群启动成功但是live node为0的情况。

具体原因为：设置时在127.0.0.1后面添加了hadoop01，这样hadoop在启动的时候，根据配置文件监听的时候监听的是hadoop01的9000端口，而这个hadoop01被解析成了127.0.0.1，这样hadoop01节点就不会监听192.168.116.101的9000端口，来自hadoop02和hadoop03的信息不会被hadoop01节点接收到，也就会出现hadoop02和hadoop03节点日志里面的内容，live node一直为0。
参考链接点这里

ssh免密码登录

在每一台主机上生成ssh密钥

ssh-keygen -t rsa -P ''

生成的密钥在/root/.ssh/id_rsa.pub里，将所有主机上的密钥都放在/root/.ssh/authorized_keys文件里，然后使用scp命令，将文件传输到另一个host上。scp -r /root/.ssh/authorized_keys [email protected]:/root/.ssh
最终/root/.ssh/authorized_keys文件中的内容如下图

传输完成后使用ssh互相连接，以互相建立信任连接
master节点：

ssh slave1
ssh slave2

两个slave同理

检查集群主机的时间是否一致

设置后续要使用的命令的快捷命令（别名）

根据自己的版本信息设置快捷命令
这些内容是根据之后的系列指南逐步添加写成的。

#some more aliases
alias cdhadoop='cd /opt/hadoop/hadoop2.8'
alias cdhbase='cd /opt/hbase/hbase1.2'
alias cdhive='cd /opt/hive/hive1.2'
alias cdzookeeper='cd /opt/zookeeper/zookeeper3.4'

alias hadoopfirststart='/opt/hadoop/hadoop2.8/bin/hdfs namenode -format'
alias starthdfs='/opt/hadoop/hadoop2.8/sbin/start-dfs.sh'
alias startyarn='/opt/hadoop/hadoop2.8/sbin/start-yarn.sh'
alias stophdfs='/opt/hadoop/hadoop2.8/sbin/stop-dfs.sh'
alias stopyarn='/opt/hadoop/hadoop2.8/sbin/stop-yarn.sh'

alias starthbase='/opt/hbase/hbase1.2/bin/start-hbase.sh'
alias stophbase='/opt/hbase/hbase1.2/bin/stop-hbase.sh'

alias startzookeeper='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh start'
alias stopzookeeper='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh stop'
alias statuszookeeper='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh status'

样例：

别忘了source ~/.bashrc

设置环境变量

vim /etc/profile
根据自己的版本来设置，注意：下面并没有给出storm和kafka的信息，因为这两个的版本还没敲定

#Java Config
export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
# Zookeeper Config
export ZK_HOME=/opt/zookeeper/zookeeper3.4
# HBase Config
export HBASE_HOME=/opt/hbase/hbase1.2
# Hadoop Config
export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
# Hive Config
export HIVE_HOME=/opt/hive/hive1.2
export HIVE_CONF_DIR=${HIVE_HOME}/conf

export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${ZK_HOME}/bin:${HBASE_HOME}/bin:${HIVE_HOME}/bin:$PATH

修改完记得source /etc/profile

配置java

按照/etc/profile文件里的目录路径配置java文件，如何安装java自行百度即可。
执行java -version检查java是否成功配置以及版本是否正确。

大数据集群搭建和使用之一——系统前期准备