hadoop(1)-インストールと基本的な使用法
記事ディレクトリ
- hadoop(1)-インストールと基本的な使用法
- 1.はじめに
- 次に、hadoopキー構成ファイル
- 3. hadoopインストール前の準備
- 4、hadoopのインストール
- 4.1 hadoopをダウンロードする
- 4.2カスタムインストールディレクトリに解凍する
- 4.3インストールディレクトリを入力してください
- 4.4 hadoop-env.shファイルを変更する
- 4.5 core-site.xmlファイルを変更する
- 4.6 hdfs-site.xmlファイルの変更
- 4.7 mapred-site.xmlファイルとyarn-site.xmlファイルを構成する
- 4.8 hdfsファイルシステムのフォーマット
- 4.9スタート
- 5、hadoopページビュー
- 6.基本的な操作
1.はじめに
1.1 Hadoopの機能
hadoopは、Apacheによって開発された分散システムです。分散環境では、大量のデータの保存と処理に使用されます。
1.2 Hadoopの構成
Hadoopは主に、hdfs(hadoop分散ファイルシステム)分散ファイルシステムとMapReduceプログラミングモデルの2つの部分で構成されています。
- hdfs:以前のファイルシステムを抽象化します。ファイルは複数のマシンに保存されますが、同じアドレス空間を共有します。
- MapReduce:大量のデータをバッチで処理できるデータ処理メソッドです。もちろん、非リアルタイムです(応答時間は処理されるデータの量によって異なります)。
次に、hadoopキー構成ファイル
2.1 core-site.xml
共通コンポーネントのプロパティを構成するために使用されます
2.2 hdfs-site.xml
hdfs属性の構成に使用されます
2.3 mapred-site.xml和yarn-site.xml
MapReduceプロパティの構成に使用されます
2.4 hadoop-env.sh
jdkパスの構成など、Hadoop実行環境を構成します。
3. hadoopインストール前の準備
3.1 jdkのインストール
まず、jdkがインストールされていることを確認してください。
3.2パスワードなしのログインを設定する
コマンドssh localhostを使用して、パスワードなしでログインできます。sshモードでインストールマシンにログインできない場合は、インストールする必要があります。手順は次のとおりです。
- sudo apt-get install ssh
- ログインユーザーのホームディレクトリで、ssh-keygen -t rsa -P '' -f .ssh / id_rsaと入力します。
- cp .ssh / id_rsa.pub .ssh / authorized_keys
- 最後に、ssh localhostを使用して、パスワードなしでログインできるかどうかを確認します。
4、hadoopのインストール
次の例では、疑似分散(小規模クラスターをシミュレートするためにマシンにインストール)インストールを使用しています。
4.1 hadoopをダウンロードする
ダウンロードアドレス:http://hadoop.apache.org/releases.html、ここで使用されるバージョンはhadoop-2.7.1です。つまり、インストールパッケージはhadoop-2.7.1.tar.gzです。
4.2カスタムインストールディレクトリに解凍する
tar -zxvf hadoop-2.7.1.tar.gz
4.3インストールディレクトリを入力してください
cd hadoop-2.7.1
# 再进入配置文件目录
cd etc/hadoop
4.4 hadoop-env.shファイルを変更する
java_homeディレクトリを指定し、次のように構成を追加します。
export JAVA_HOME=/usr/local/java
4.5 core-site.xmlファイルを変更する
次のように構成を変更します。
<configuration>
<!-- hdfs文件地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.0.1:9000</value>
</property>
</configuration>
4.6 hdfs-site.xmlファイルの変更
次のように構成を変更します。
<configuration>
<!-- hdfs的web访问地址 -->
<property>
<name>dfs.namenode.http-address</name>
<value>localhost:50070</value>
</property>
<!-- 副本数 -->
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<!-- hdfs文件系统元数据存储目录 -->
<property>
<name>dfs.name.dir</name>
<value>/home/china/big_data_dir/hadoop/name</value>
</property>
<!-- hdfs文件系统数据存储目录 -->
<property>
<name>dfs.data.dir</name>
<value>/home/china/big_data_dir/hadoop/data</value>
</property>
</configuration>
4.7 mapred-site.xmlファイルとyarn-site.xmlファイルを構成する
設定ディレクトリにそのようなファイルがない場合は、テンプレートからコピーをコピーできます。つまり、cp mapred-site.xml.template mapred-site.xml、
mapred-site.xml設定は次のとおりです。
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
yarn-site.xmlの構成は次のとおりです。
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>work.cn</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>work.cn:8088</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>192.168.0.1:9001</value>
</property>
</configuration>
4.8 hdfsファイルシステムのフォーマット
bin/hdfs namenode -format
4.9スタート
sbin/start-dfs.sh
sbin/start-yarn.sh
現時点では、jspを介して起動の進行状況を表示できます。次の3つがあります。
21392 NameNode
21712 SecondaryNameNode
21505 DataNode
この時点で、hadoopのインストールが開始されます。
5、hadoopページビュー
5.1 namenodeビュー
ブラウザにhttp:// localhost:50070と入力して表示します。
ページの上部にある[Utilities]ドロップダウンボックスの下の[Browse the file system]をクリックして、hdfsでファイルシステムを表示します。
4.2他のクラスターアプリケーションを表示する(ジョブトラッカー)
ブラウザにhttp:// localhost:8088と入力して表示します。
6.基本的な操作
6.1一般的なコマンド
hdfsファイル操作(いくつかのコマンドを除く)は、bin / hadoop fsが前に追加されていることを除いて、Linuxのファイル操作コマンドに似ています。など:
#创建文件夹
bin/hadoop fs -mkdir /test
#查看文件内容
bin/hadoop fs -cat /
#查看文件列表
bin/hadoop fs -ls /
ここで重要な点は、ファイルがローカルからhdfsファイルシステムにアップロードされ、hdfsファイルシステムからローカルにダウンロードされることです。
6.2ローカルからhdfsファイルシステムへのファイルのアップロード
次のようなコマンド:
bin/hadoop fs -copyFromLocal ~/hadoop_space/t.txt /test/
6.3 hdfsファイルシステムからローカルへのファイルのダウンロード
次のようなコマンド:
bin/hadoop fs -copyToLocal /test/t.txt ~/hadoop_space/t1.txt