ビッグデータ入門(1) Hadoop擬似分散インストール

1 はじめに

1.1 ビッグデータの定義

ビッグデータ(Big Data)とは、取得、保存、管理、分析の点で従来のデータベースソフトウェアツールの能力を大きく上回るほど大規模なデータの集合体であり、大規模なデータ規模、高速なデータフロー、多様なデータタイプ、低い値密度という4つの大きな特徴(4V特性)を持っています。IBMは、ビッグデータにはボリューム(質量)、ベロシティ(速度)、多様性(多様化)、価値(価値の低さ)、真実性(信頼性)の5V特性があると提唱しました。

1.2 Hadoop エコシステムの概要

2. Hadoop擬似分散インストール

2.1 VMwear への Centos7 のインストール

仮想マシンのインストールに関するオンライン チュートリアルは多数あるため、この記事では詳しく説明しません。当時読んだブログは次のとおりです: VMwear インストール Centos7 超詳細プロセス

2.2 早期の準備

2.2.1 仮想マシンのIPアドレスを設定する

仮想マシンのIPアドレスはデフォルトで自動取得されるため、ネットワーク環境の変化などにより変更される場合があります。これを行うには、まず固定 IP アドレスを設定する必要があります。

デスクトップの右上隅にあるネットワーク アイコンをクリックし、[有線] --> [有線設定] --> [設定] をクリックし、[IPv4] を選択して、[アドレス] 列に IP アドレスを入力します (注: IP アドレスはホストと同じネットワーク セグメントにあることが望ましいです)。

2.2.2 ホスト名の変更

ホスト名を永続的に変更するには、次のシェル コマンドを使用してホスト名を hadoop0 に変更します。

hostnamectl set-hostname hadoop0

次に、ローカル IP アドレスを hosts ファイルに設定します。

vim /etc/hosts

# 在文件末尾加上一行
192.168.1.11 hadoop0

2.2.3 ssh接続仮想マシン

SSH 経由で仮想マシンに接続する前に、ポート 22 が開いているかどうかを確認してください。有効になっていない場合は、オンライン チュートリアルを参照してください。

netstat -tunlp | grep 22
# 或者以下方式
service ssh status
service sshd status

WinSCPMobaXtermなどの ssh ソフトウェアを使用して接続することをお勧めします。

2.2.4 JDKのインストール

公式サイト からjdk-8u291-linux-x64.tar.gzをダウンロードし、WinSCP または MobaXterm を使用して CentOS7 の /usr/local ディレクトリにアップロードします。次に、cd コマンドを使用して /usr/local ディレクトリに切り替え、tar コマンドを使用して解凍します。

cd /usr/local/
tar -xvf jdk-8u291-linux-x64.tar.gz

解凍が完了したら、次のコマンドをインストールして環境変数を構成できます。

# 将解压缩后的文件重命名为jdk
mv jdk1.8.0_152/ jdk

# 然后将JDK的安装目录 /usr/local/jdk 配置到 /etc/profile 的PATH环境变量中
vim /etc/profile
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin

# 使环境变量生效
source /etc/profile

 java -version コマンドを実行して、JDK のバージョン番号を表示し、JDK が正常に構成されているかどうかをテストします。

2.3 Hadoopのインストール

2.3.1 Hadoopのダウンロード

公式サイトから hadoop-3.0.0.tar.gz をダウンロードし、WinSCP または MobaXterm を使用して CentOS7 の /usr/local ディレクトリにアップロードし、インストールの準備をします。

cd /usr/local/
tar -xvf hadoop-3.0.0.tar.gz
mv hadoop-3.0.0 hadoop

2.3.2 環境変数の設定

vim /etc/profile

# 配置环境变量
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# 配置hadoop五个进程的账号
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root


# 使环境变量立即生效
source /etc/profile

2.3.3 hadoop-env.sh の構成

hadoop-env.sh ファイルには、JAVA_HOME、hadoopconfdir およびランタイム変数 (hadoop スタック サイズ、Java 実行メモリ サイズなど) などのすべての Hadoop シェル コマンドで使用されるグローバル設定が保存されます。

Hadoop 構成ファイルがあるディレクトリ /usr/local/hadoop/etc/hadoop/ に切り替えて、hadoop-env.sh の JDK パスを変更します。

cd /usr/local/hadoop/etc/hadoop/

vim hadoop-env.sh

# 将37行的 #JAVA_HOME=/usr/Java/testing hdfs dfs -ls 改成如下
JAVA_HOME=/usr/local/jdk

2.3.4 core-site.xmlの構成

vim core-site.xml

# 配置HDFS的访问URL
<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop0:9000/</value>
                <description>NameNode URI</description>
        </property>
</configuration>

構成の詳細については、core-default.xmlを参照してください。

2.3.5 hdfs-site.xmlの構成

NameNode と DataNode のメタデータ ストレージ、および NameNode と SecondaryNameNode のアクセス ポートにアクセスするためのパスを構成します。

<configuration>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:///usr/local/hadoop/data/datanode</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:///usr/local/hadoop/data/namenode</value>
        </property>
        <property>
                <name>dfs.namenode.http-address</name>
                <value>hadoop0:50070</value>
        </property>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop0:50090</value>
        </property>
</configuration>

構成の詳細については、hdfs-default.xmlを参照してください。

2.3.6yarn-site.xmlの設定

Yarnのノードマネージャーやリソースマネージャーのアクセスポートなどの情報を設定します。

<configuration>

<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
                <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>
        <property>
                <name>yarn.resourcemanager.resource-tracker.address</name>
                <value>hadoop0:8025</value>
        </property>
        <property>
                <name>yarn.resourcemanager.scheduler.address</name>
                <value>hadoop0:8030</value>
        </property>
        <property>
                <name>yarn.resourcemanager.address</name>
                <value>hadoop0:8050</value>
        </property>

</configuration>

構成の詳細については、yarn-default.xmlを参照してください。

2.3.7 Hadoopのフォーマットと起動

ここまでで Hadoop の設定は完了しましたが、Hadoop を起動する前にフォーマットする必要があります。

hadoop namenode -format

エラーが報告されなければ、フォーマットは成功しています。

注: Hadoop の使用中にエラーが発生した場合、または Hadoop を起動できない場合は、再フォーマットが必要になる場合があります。再フォーマットは、Hadoopを停止し、Hadoop配下のデータフォルダーやログフォルダーを削除してフォーマットする手順を参考に行ってください。

stop-all.sh
cd /usr/local/hadoop/
rm -rf data/ logs/
hadoop namenode -format

start-all.sh コマンドを使用して Hadoop のすべてのプロセスを開始し、stop-all.sh を使用して Hadoop のすべてのプロセスをシャットダウンします。

2.3.8 Hadoopの検証

jps コマンドを使用して、Hadoop 関連のプロセスを表示できます (jps は、現在の Java プロセスを表示するために JDK が提供する小さなツールであり、JavaVirtual Machine Process Status Tool の略称とみなすことができます)。

Hadoop コマンドを使用して HDFS 上のファイルを表示できます

hadoop fs -ls /

現在、HDFS 上にはファイルはありません。HDFS の関連コンテンツについては次のセクションで紹介します。

ブラウザ アクセスを通じて実行中の Hadoop に関する情報を表示することもできます。

2.3.9 結論

公式 Hadoop ドキュメントを投稿します:  hadoop3.0 公式ドキュメント

 

おすすめ

転載: blog.csdn.net/qq_37771475/article/details/116462272