Hadoopの知識ポイント(1)

記事のディレクトリ

Hadoopが従来の技術ソリューションよりも速い理由

1.分散ストレージ
2.分散並列コンピューティング
3.ノードの水平拡張
4.プログラムをデータ端末に移動
5.複数のデータコピー

ビッグデータの特徴は何ですか?

(1)大量の定量化と
大量のデータ(多く)
(2)多様な
構造データ、半構造化データ、および非構造化データ
(3)急速な
データ増加率
(4)高い価値
大量のデータは高い価値を持っています

hdfsのシェルクライアント操作コマンドはどういう意味ですか?

(1)-lsファイルとディレクトリの情報を表示します
(2)mkdir-hdfsにディレクトリを作成します。-pはパス内のすべてのレベルの親ディレクトリが作成されることを意味します
(3)put-ローカルファイルシステムから単一のsrcまたは複数のsrcをコピーしますターゲットファイルシステムへ
(4)-getファイルをローカルファイルシステムにコピーします
(5)-appendFile既存のファイルの最後にファイルを追加します
(6)-catファイルの内容を表示します
(7)-ファイルtailの最後の内容を表示します
(8)-chmodファイルのアクセス許可を変更します。-Rを使用して、ディレクトリ構造の下で再帰的に変更を加えます
(9)-copyFromLocalローカルファイルシステムからhdfsパスにファイルをコピーします
(10)copyToLocal-hdfsからローカルにコピーします
(11)cp-hdfsのあるパスからhdfsの別のパスにコピーしますパス
(12)mv-hdfsディレクトリ内のファイルを移動します
(13)-rm指定したファイルを削除します。空でないディレクトリとファイルのみを削除します。-r再帰削除
(14)-dfファイルシステムの空き容量情報をカウントします
(15)du-ディレクトリ内のすべてのファイルのサイズを表示し、ファイルが1つだけ指定されている場合はこのファイルのサイズを表示します

ビッグデータは何ができるのでしょうか?

(1)大量データのクイッククエリ
(2)大量データの保存(大量のデータ、単一の大きなファイル)
(3)大量データの迅速な計算(従来のツールと比較して)
(4)大量データのリアルタイム計算(すぐに)
(5)データマイニング(これまで発見されたことのない貴重なデータをマイニング)

hdfsの主な機能は何ですか?

HDFSの主な機能は、大量のデータを分散して保存することです。

Hadoopのゴミ箱メカニズムはどのファイルに設定されていますか?

core-site.xmlファイル内の構成

ごみ箱の構成パラメーターは何ですか?

fs.trash.interval

jobHistoryserverサービスプロセスを開始するコマンド?

mr-jobhistory-daemon.sh start historyserver
mr-jobhistory-daemon.sh stop historyserver閉じて開始

jobhistoryserverのwebUIによってアクセスされるデフォルトのポートは何ですか?

デフォルトのポートは19888です

hadoopをインストールするときに構成する必要のあるファイルは何ですか?

(1)hadoop-env.sh
(2)core-site.xml
(3)hdfs-site.xml
(4)mapred-site.xml
(5)yarn-site.xml
(6)Slaves

HDFSを初めて起動するとき、どのコマンドをフォーマットする必要がありますか?

bin/hdfs namenode -format或者bin/hadoop namenode –format

Hadoopインストールパッケージディレクトリにはどのフォルダが含まれ、それらの機能は何ですか?

(1)bin:Hadoopの最も基本的な管理スクリプトとスクリプトが使用されるディレクトリ
(2)etc:Hadoop構成ファイルが配置されているディレクトリ
(3)include:外部から提供されるプログラミングライブラリヘッダーファイル
(4)lib:このディレクトリにはプログラミングが含まれていますHadoopが外部から提供するダイナミクスライブラリと静的ライブラリ
(5)libexec:各サービスペアで使用されるシェル構成ファイルが配置されているディレクトリ
(6)sbin:Hadoop管理スクリプトが配置されているディレクトリ
(7)share:jarパッケージが配置されているディレクトリ各Hadoopモジュールによってコンパイルされた場所があり、公式の例は

Hadoop機能の利点は?

(1)容量拡張
(2)低コスト
(3)高効率
(4)信頼性

Hadoopをデプロイする方法は何ですか?

(1)スタンドアロンモード(独立モード)
(2)疑似分散モード
(3)クラスターモード(クラスターモード)

ネットワーク同期のコマンド?

ntpdate cn.pool.ntp.org(Ntpdateアドレス)

ホスト名はどのファイルに設定されていますか?

/etc/sysconfig/network

IPとホスト名のマッピングを構成するために使用されるファイルはどれですか?

/etc/hosts

HDFS NameNodeを開始するコマンド?

hadoop-daemon.sh start namenode

単一ノードでHDFSDataNodeを開始しますか?

hadoop-daemon.sh start datanode

単一ノードでYARNResourceManagerを起動しますか?

yarn-daemon.sh start resourcemanager

HDFSクラスターのワンクリック起動およびシャットダウンスクリプトコマンドとは何ですか?

start-dfs.shスクリプトの開始スクリプトのstop-dfs.sh停止

Hadoopのコンビネットとパーティションの違いの概要

結合と分割はどちらも機能であり、中間のステップはシャッフルするだけです。結合はマップ側とリデュース側に分けられます。機能は同じキーのキーと値のペアをマージすることです。カスタマイズできます。パーティションはマップの各ノードを分割した結果です。異なるリデュースにマップされます。キーに応じて、自己定義することもできます。定義済み。実際、分類はここで理解できます。

メッセージ通信メカニズムを提供するためにHBaseは何に依存していますか?

Zookeeper

Hbaseのセルの構造を詳しく説明してください

HBaseの行と列によって決定されるストレージユニットはセルと呼ばれます。セル:{row key, column(=<family> + <label>), version}一意に決定されたセル。セル内のデータにはタイプがなく、すべてバイトコード形式で保存されます。

hbaseでのコンパクトトリガーのタイミング

1)Memstoreがフラッシュされた後、圧縮されているかどうかを判断し
ます。2)CompactionCheckerスレッド、定期的にポーリングします。

hbaseとmysqlの違い


Mysqlは行のデータを格納し、行全体のデータは全体であり、一緒に格納されますHbaseは列のデータを格納し、行全体のデータは全体であり、一緒に格納されます。これは圧縮と統計に役立ちます。

hbaseのコンパクトな役割

1.ファイルを結合します
2.期限切れのデータをクリーンアップします
3.データの読み取りと書き込みの効率を向上させます

ビッグデータ処理フロー

データ生成-"データ収集-"データストレージ-"分析が必要-"データ前処理-"データ計算-"結果データストレージ-"結果データ表示

Hbaseのダウンタイムに対処する方法

ダウンタイムは、HMasterのダウンタイムとHRegisonerのダウンタイムに分けられます。HRegisonerのダウンタイムの場合、HMasterは管理するリージョンを他のアクティブなRegionServerに再配布します。データとログはHDFSで永続的であるため、この操作によってデータが失われることはありません。したがって、データの一貫性とセキュリティが保証されます。HMasterがダウンしている場合、HMasterには単一の問題点はありません。HBaseで複数のHMasterを起動でき、Zookeeperのマスター選挙メカニズムを介して実行されているマスターは常に1つです。つまり、ZooKeeperは、外部にサービスを提供するHMasterが常に存在することを保証します。

おすすめ

転載: blog.csdn.net/weixin_42072754/article/details/109291607