Hadoop環境を迅速に構築(擬似分散および完全分散のステップバイステップバージョン)

目次

1. 初期準備:

2. 環境設定:

1. 2 番目と 3 番目のホストの IP とホスト名を変更します。

2. Xftp を使用して JDK および Hadoop インストール パッケージを渡し、インストールします。

Ⅰ. まず、centos7 に付属している openJDK を削除します。

Ⅱ. JDKのインストールとJAVA環境の構築

Ⅲ. Hadoopのインストールと環境設定

IV. ホストファイル構成、パスワード不要のログイン

Ⅴ. 残り2台のファイル転送と環境設定

Ⅵ. Hadoop クラスターの起動と HDFS、YARN クラスターの UI 情報ステータスのクエリ

3. 完全分散型 Hadoop フレームワーク


1. 初期準備:

1. Linux 仮想マシンを 1 つ作成し、そのうち 2 つのクローンを作成し、ホスト名と IP アドレスを変更して、以下の手順に従います (または、仮想マシンを 3 つ作成し、初期インストール インターフェイスで IP アドレスとホスト名を設定します。作成者は最初の方法はこちら)。

2.Linux ネットワークでは、NAT モードを使用して正常に ping を実行できます。(インストールやインターネット接続を必要としない自己検索)

3. ——》リソースダウンロードアドレス 

2. 環境設定:

IPアドレス              ホスト名

192.168.1.111 bigdata111 #最初のホスト
192.168.1.112 bigdata112 #2 番目のホスト
192.168.1.113 bigdata113 #3 番目のホスト

1. 2 番目と 3 番目のホストの IP とホスト名を変更します。

最初の bigdata111 ホストを作成した後、2 つのホストのクローンを作成し、それらをネットワークに接続して 2 番目のホストのターミナルを開きます。

su root
hostname  查看主机名
vim /etc/hostname  修改主机名
ip addr/ifconfig  查看主机IP
cd /etc/sysconfig/network-scripts
vi ifcfg-ens33 修改网络配置文件:

将BOOTPROTO=dhcp改为static
ONBOOT=NO改为yes
IPADDR=192.168.1.112
NETMASK=255.255.255.0
GATEWAY=192.168.80.2  #到编辑里面打开虚拟网络编辑器然后找到NAT模式点击NAT设置就可以看到网关,这个需要和虚拟机的网关保持一致
DNS1=8.8.8.8

systemctl restart network
ip addr或者ifconfig  查看是否修改成功
同理在bigdata113主机上进行主机名和IP地址的修改

IP アドレスを変更した後、Xshell が接続できない理由は、仮想マシンのサブネットと変更された IP が同じチャネル上にないためです。

2. Xftp を使用して JDK および Hadoop インストール パッケージを渡し、インストールします。

Ⅰ. まず、centos7 に付属している openJDK を削除します。

方法一:
rpm -qa | grep java 查询java软件
sudo rpm -e 软件包  卸载不要的JDK
which java 查看JDK路径
rm -rf JDK路径  手动删除,最后把profile配置信息删除
方法二:
yum list installed | grep java  查看linux上自带的JDK
yum -y remove java-1.8.0-openjdk*   删除所有自带的JDK
yum -y remove tzdata-java.noarch

Ⅱ. JDKのインストールとJAVA環境の構築

mkdir -p /export/data
mkdir -p /export/servers
mkdir -p /export/software

Xftp把上面的两个安装包传入到/export/software文件夹中
tar -zxvf /export/software/jdk-8u181-linux-x64.tar.gz -C /export/servers/
cd /export/servers
mv jdk1.8.0_181 jdk 

vi /etc/profile
#tip:在配置文件末尾追加
export JAVA_HOME=/export/servers/jdk
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
source /etc/profile
java -version

Ⅲ. Hadoopのインストールと環境設定

tar -zxvf /export/software/hadoop-2.7.2.tar.gz -C /export/servers/
vi /etc/profile    (shift+G快速到文件末尾)

#tip:在文件末尾追加
export HADOOP_HOME=/export/servers/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile
hadoop version
cd /export/servers/hadoop-2.7.2/etc/hadoop/


vi hadoop-env.sh
#tip:找到相应位置,添加这段话
export JAVA_HOME=/export/servers/jdk


vi core-site.xml
#tip:下图中乱码部分为注释代码,可以删掉,不影响
<configuration>
    <!--用于设置Hadoop的文件系统,由URI指定-->
    <property>
        <name>fs.defaultFS</name>
        <!--用于指定namenode地址在hadoop01机器上-->
        <value>hdfs://bigdata111:9000</value>
    </property>
    <!--配置Hadoop的临时目录,默认/tem/hadoop-${user.name}-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/export/servers/hadoop-2.7.2/tmp</value>
    </property>
</configuration>


vi hdfs-site.xml
<configuration>
    <!--指定HDFS的数量-->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!--secondary namenode 所在主机的IP和端口-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>bigdata112:50090</value>
    </property>
</configuration>
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml
<configuration>
    <!--指定MapReduce运行时的框架,这里指定在YARN上,默认在local-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>


vi yarn-site.xml
<configuration>
    <!--指定YARN集群的管理者(ResourceManager)的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>bigdata111</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>


#tip:将文件中的localhost删除,添加主节点和子节点的主机名称
#tip:如主节点bigdata111,bigdata1112和bigdata113
vi slaves
bigdata111
bigdata112
bigdata113

IV. ホストファイル構成、パスワード不要のログイン

配置host文件,每个主机都要
vi /etc/hosts

192.168.1.111 bigdata111
192.168.1.112 bigdata112
192.168.1.113 bigdata113

scp /etc/hosts bigdata112:/etc/hosts
scp /etc/hosts bigdata113:/etc/hosts

在windows下打开C:\Windows\System32\drivers\etc\host,在桌面创建一个host文件不带后缀,然后把原本windows下的host文件复制到桌面的hosts文件里在最后加上上面/etc/hosts写入的,最后覆盖时候会提示文件重复,管理员权限继续覆盖即可。

免密登入(这个过程每次主机都要完整执行一次,共三次)
ssh-keygen -t rsa
cd /root
ll -a
cd .ssh/
ssh-copy-id bigdata111
ssh-copy-id bigdata112
ssh-copy-id bigdata113

ssh bigdata112/ssh bigdata111 看看是否能互通

Ⅴ. 残り2台のファイル転送と環境設定

在bigdata111上传输两个安装包给112和113    
scp /export/software/jdk-8u181-linux-x64.tar.gz bigdata112:/export/software/
scp /export/software/jdk-8u181-linux-x64.tar.gz bigdata113:/export/software/
scp /export/software/hadoop-2.7.2.tar.gz bigdata112:/export/software/
scp /export/software/hadoop-2.7.2.tar.gz bigdata113:/export/software/

分别在112和113上安装两个包
tar -zxvf /export/software/jdk-8u181-linux-x64.tar.gz -C /export/servers/
tar -zxvf /export/software/hadoop-2.7.2.tar.gz -C /export/servers/

传输111的环境变量文件给112和113
scp /etc/profile bigdata112:/etc/profile
scp /etc/profile bigdata113:/etc/profile
scp -r /export/ bigdata112:/
scp -r /export/ bigdata113:/

#tip:返回bigdata112和bigdata113节点执行下面命令,使环境变量生效
source /etc/profile
然后在112和113上java -version和hadoop version查看是否安装成功

Ⅵ. Hadoop クラスターの起動と HDFS、YARN クラスターの UI 情報ステータスのクエリ

hdfs namenode -format
start-dfs.sh
start-yarn.sh
jps(只能查java编写的进程)
systemctl stop firewalld.service    #关闭防火墙
systemctl disable firewalld.service  #关闭防火墙开机启动

通过UI界面查看Hadoop运行状态,在Windows系统下,访问http://bigdata111:50070,查看HDFS集群状态,在Windows系统下,访问http://bigdata111:8088,查看Yarn集群状态

JPS で DataNode の PID を見つけて、-9 PID (DataNode) を kill します。クラスターのハートビート メカニズムにより、10 分後に HDFS にデッド ノードが表示され、検証が完了することがわかります。この時点で、擬似分散型 Hadoop フレームワークがインストールされました。

3. 完全分散型 Hadoop フレームワーク

ノードの割り当ては次の図に示すようになります。

仕える ビッグデータ111 ビッグデータ112 ビッグデータ113
名前ノード
セカンダリ ネームノード
データノード
リソースマネージャー
ノードマネージャー
ジョブ履歴サーバー

上記の疑似分散構成が成功したら、いくつかの構成ファイルを変更し、bigdata111 上のファイルを bigdata112 および 113 に割り当てるだけで済みます。

cd /export/servers/hadoop-2.7.2/etc/hadoop/


vi core-site.xml
#tip:下图中乱码部分为注释代码,可以删掉,不影响
<configuration>
    <!--用于设置Hadoop的文件系统,由URI指定-->
    <property>
        <name>fs.defaultFS</name>
        <!--用于指定namenode地址在bigdata111机器上-->
        <value>hdfs://bigdata111:9000</value>
    </property>
    <!--配置Hadoop的临时目录,默认/tem/hadoop-${user.name}-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/export/servers/hadoop-2.7.2/tmp</value>
    </property>
</configuration>

vi hdfs-site.xml
<configuration>
    <!--指定HDFS的数量-->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <!--secondary namenode 所在主机的IP和端口-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>bigdata112:50090</value>
    </property>
    <property>
        <name>dfs.namenode.http-address</name>
        <value>bigdata111:50070</value>
    </property>
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
</configuration>

vi mapred-site.xml
<configuration>
    <!--指定MapReduce运行时的框架,这里指定在YARN上,默认在local-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>bigdata113:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>bigdata113:19888</value>
    </property>
</configuration>

vi yarn-site.xml
<configuration>
    <!--指定YARN集群的管理者(ResourceManager)的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>bigdata113</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>

scp -r /export/ bigdata112:/
scp -r /export/ bigdata113:/

発生する問題: hdfs namenode -format の後に start-all.sh を実行し、jps で DataNode が表示されないことを確認します。これは、以前の疑似分散インストールと現在の環境の間に競合があるか、namenode をフォーマットを実行した後は、可能な限りインストールしてください。フォーマットしないと、データノードが対応するクラスター ID を見つけられなくなります。

解決策: cd /export/servers/hadoop-2.7.2/tmp/dfs/ の後、ls を実行してデータ ファイルがあることを確認し、次に rm -rf data を実行してファイルを削除し、次に hdfs namenode -format と start-all を実行します。 .sh. この問題を解決するには、3 台のマシンのデータ ファイルを削除する必要があることに注意してください。

Web ページにアクセスします。ここでは ResourceManager が bigdata113 に割り当てられているため、アクセスされる Web ページは次のとおりです。

bigdata111:50070 および bigdta113:8088

 

おすすめ

転載: blog.csdn.net/weixin_56115549/article/details/126611995