配布された
アプリケーション全体は、異なるホストに分散されたプロセス (プログラム) の連携によって形成できます。
ブラウザ/Web サーバー: シン クライアント プログラム。
ビッグデータ4V特性
1. ボリューム:大きいサイズ
2. 速度: 速い
3. 多様性: 多くのスタイル
4. 値: 値密度が低い
ハドゥープ
信頼性が高く、スケーラブルな分散コンピューティングのためのオープンソース ソフトウェア。
シンプルなプログラミング モデル (MapReduce) を使用して、コンピューター クラスター全体で大規模なデータ セットを処理できるようにするフレームワークです。
単一サーバーから数千のホストまで拡張可能で、各ノードはコンピューティング機能とストレージ機能を提供します。可用性の高いマシンに依存するのではなく
アプリケーションレベルでの実装に応じて、
Hadoopモジュール
1.hadoop共通パブリッククラスライブラリ
2.HDFS Hadoop分散ファイルシステム
3.Hadoop Yarn ジョブのスケジューリングとリソース管理フレームワーク
4.Hadoop MapYarnシステムに基づく大規模データセットの並列処理技術
MapReduce の仕組み
Hadoopのインストール
- Jdk (JDK 1.8.11 の使用を推奨)
前提条件: Linux 環境を準備する
ビッグデータのhbase
1ファイルシステム
Linux Exts XFS Windons HTFS hbase 最初に HDFS をインストール
2.アイコン
hbase シャチの巣 象の頭 蜂の尾 ハドゥープ 象
3つのビッグデータエコシステム
Elasticsearch 検索エンジン 言語 (Java/Scala )
Hadoop 3バージョン 1 コミュニティ版 Apache Hadoop (無料機能はダメ) 2 ディストリビューション版 CDH (現在使用中) 3 ディストリビューション版 HDP (有料機能は素晴らしい)
OLAPデータベース OLTAビッグデータ
HDFS MapReduce YARN
スタンドアロンHadoop動作環境構築
1ベースをhadoop01にコピー
hostnamectl set-ホスト名 hadoop01vim /etc/systemconfig/network-scripts/ifcfg-ens33
vim /etc/hosts
/opt cd /opt
tar -zxf hadoop-2.6.0-cdh5.14.2.tar.gz
mv hadoop Soft/hadoop260
cd Soft/hadoop260
cd etc/hadoop
pwd
vim hadoop-env.sh
1=への Hadoop 関連jar の組み込み============================
エクスポート JAVA_HOME=/opt/soft/jdk180
:wq
1========== ===================
vim
core-site.xml
2======================= =====
<構成>
<プロパティ>
<name>fs.defaultFS</name>
<値>hdfs://192.168.64.210:9000</value> </プロパティ> <
プロパティ> <
名前
>hadoop.tmp 。dir</name>
<value>/opt/soft/hadoop260/tmp</value>
</property>
</configuration>
:wq
2============================
vim
hdfs-site.xml
3======= =====================
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
< /configuration>
:wq
3============================
cpmapred
-site.xml.templatemapred-
site.xmlvimmapred -site.xml
4============================
<設定>
<プロパティ>
<名前>mapreduce.framework。名前</name>
<値>糸</値>
</プロパティ>
</構成>
:wq
4============================
vim tongue-site.xml
5============== ==============
<構成>
<プロパティ>
<名前>yarn.resourcemanager.localhost</name>
<値>ローカルホスト</値> </プロパティ
> <プロパティ
>
<名前> yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
:wq
5============================
#Hadoop 環境変数
を設定します
vim /etc/profile
6==を使用してください。 = =========================
# Hadoop ENV
エクスポート HADOOP_HOME=/opt/soft/hadoop260
エクスポート HADOOP_MAPRED_HOME=$HADOOP_HOME
エクスポート HADOOP_COMMON_HOME=$HADOOP_HOME
エクスポート HADOOP_HDFS_HOME=$HADOOP_HOME
エクスポート YARN_HOME=$HADOOP_HOME
エクスポート HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
エクスポート PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
エクスポート HADOOP_INSTALL=$HADOOP_HOME
:
wq
6============ ================ #
上記の設定
ソース /etc/profileをアクティブ化
#パスワードなしでログイン
ssh-keygen -t rsa -P ''
cd /root/.ssh/
ls
ssh - copy-id -i ~/.ssh/id_rsa.pub [email protected]
yes
ok
ls
ll
ssh 192.168.64.210
exit
#自分のホスト名/ect/hosts または systemctl として hadoop210 にリモートでログイン sethostname hadoop210# ssh
hadoop210
はい
ssh
を終了しますhadoop210
を終了します
#Format NameNode
#パスワードなしで直接ログイン
hdfs namenode
-format
読む
1 クライアントは NameNode を探し、ファイルの場所を要求します。 2 NameNode --->fsimage(editlog)--->クライアント (アドレスを指定します) 3 クライアントはアドレスを使用して、対応する DataNode 内のデータを検索します。
書く
1 クライアントは NameNode を探し、ファイル ストレージ アドレスを要求します。 2 NameNode -- yarn がアドレスを与えます ---> クライアント 3 クライアント ---> DataNode ---> NameNode はノード アドレスをバックアップしたいです 4 NameNode --->データノード --> アドレス 5 を与える データノード -- チャネル --> バックアップ ノード 6 にデータを送信する バックアップ ノードの書き込み完了後 ---> 最初のデータノード --> クライアント 7 クライアント名ノード
2hadoop01の起動
start-all.sh Yes Yes jps #Hadoop 単一マシン クラスタの構築を表示するブラウザ 192.168.64.210:50070
3. システムをシャットダウンします。
ストップオール.sh