大規模なデータ解析乗数のハイブ実用的な操作

一般的に、我々はあなたがスパーク、嵐を考えるかもしれない、ビッグデータを分析し、だけJAVAや他のプログラミング言語でなければならない、または分析のためのデータを得ることができません。ハイブは、この問題が唯一のビッグデータ分析タスクのSQL言語のMapReduceを行う必要があります解決します。今日はハイブと実際の試験データ分析のMapReduceを作成します。

まず、最初にインストールハイブ、MySQLの環境

1、昨日のHDFSに基づいて、ハイブ、MySQLをインストールします。

2は、データのHDFSメモリセルに依存メタデータを格納するハイブのMySQLの結果に依存して、パスワードハイブ、MySQLアカウントを設定しました。

3. MySQLのハイブ、新しいMySQLデータベースアカウントのパスワードでデータベースを作成します。

第二に、テストデータを作成します

1.テスト・データのファイルを作成します。

CDは/ usr / local / Hadoopの

mkdir入力

エコーの "Hello World"> FILE1.TXT

エコー "こんにちはHadoopの"> FILE2.TXT

図2に示すように、ハイブに、ハイブファイルデータテーブルに導入され

ハイブ>テーブルドキュメント(行の文字列)を作成; // 1列のみの要素を持つテーブルを作成します。

ハイブ>負荷データのローカル入力「は/ usr / local / Hadoopの/入力」テーブルドキュメントに上書き; //ディレクトリ入力FILE1、FILE2はハイブドキュメントテーブルを注ぎました。

データがドキュメントSELECT * FROMでの成功を確認した注ぎます。

第三に、テストや分析タスクを作成します

1、分析し、SQL文の単語数で処理。

選択ワードとしてテーブル単語数を作成し、ワード単位の順序でグループW(ドキュメントからワードとして))」「、(ライン(爆発スプリット選択)からカウントとして(1)カウント。

2、タスクのMapReduceをチェック

MapReduceの審査プロセスは、上記の文は、MapReduceのタスクを開始しています。

3、試験結果

単語数から*を選択すると、正常に完了したタスクのワードカウントを見つけます。

IVの概要

1、ハイブMySQLの堆積物は、HDFS、安価なデータ・ウェアハウスに依存するデータベースファイルに格納されているメタデータに依存します。

2、ハイブのMapReduceは、SQL文を使用してタスクを作成するには、非リアルタイムデータ解析および処理に適用されます。

私はこの記事はあなたを助けることができると思います。

よりリアルタイムの更新は、公共の番号を参照してください。    

 

ユニバーサルバウチャーを提供して、最高¥1888アリの雲を取得するにはここをクリック

おすすめ

転載: blog.csdn.net/qq_29718979/article/details/91129681