ビッグデータロードweek07 - day06(Sqoopリレーショナルデータベース(オラクルは、MySQL、PostgreSQLの、など)とデータのHadoopデータ変換ツール)

Sqoopは、あなたが次の機会にsqoopを見つけることハイブの最初のツールを学習するプロセスでの学習、学習のバックを容易にするために、我々はビッグデータフレームワークで学ぶ最も簡単なフレームワークです。

Sqoopをするために使用される のHadoopの 関係であってもよいツールデータと相互に転送リレーショナルデータベース データベース 入口ガイドデータ(例えば等のMySQL、Oracleの、Postgresの、)HDFSのHadoopに、それはまた、HDFSすることが可能です。リレーショナルデータベースにパイロットデータ。
いくつかのため のNoSQL データベース、それはまた、コネクタを提供します。
他のETLツールと同様Sqoop、セキュリティタイプのデータ処理を保証するため、データソースのHadoopからデータ・タイプとデータ転送を決定するために、メタデータ・モデルを使用して。
Sqoopはのために設計された 大きなデータ -volume送信デザイン、データ収集、各ブロックを処理するタスクのHadoopを作成するために分割することができます。
Sqoopを使用する時には、上記の利点にもかかわらず、注意すべき点がいくつかあります。
まず、デフォルトの並列処理は注意します。パーティション・キーの範囲内で、デフォルトの仮定Sqoop、大規模なデータが均一に分布していることをパラレル手段。ときに、ソースシステムは、主キーを生成するシーケンス番号ジェネレータを使用している場合に適しています。
あなたは10ノードクラスタを持って類推、この10台ので、その後、ワークロードのサーバーに均等に分布します。あなたは、英数字キーに基づいて分割する場合は、数は先頭の20倍の数として「M」キーの始まりであるように、「A」のキーの例があり、その後、ワークロードが1からになるだろう別のサーバーにサーバーを傾け。
あなたが最もあるパフォーマンスを心配している場合は、その研究の下に直接ロードすること。ダイレクトなど、自身が提供するデータベースを使用して、通常のJava Database Connectivityのインポートバイパスに直接ロードされたツールをロードした のMySQL のmysqldumpを。
しかし、特定のデータベースの限界があります。たとえば、インポートBLOBおよびCLOB型にMySQLやPostgreSQLのコネクタを使用することはできません。いいえドライバのサポートは、ビューから導入されません。Oracleのダイレクトドライブは、このような類似DBA_OBJECTSを読み取るための権限を必要とV_ $パラメータ メタデータ 文書関連データベースの直接ドライバーの制限を参照してください。
Sqoopは、特に大規模なデータセットのために設計されているため、増分輸入は、ほとんどの話の効率化に関連する問題です。Sqoopは、増分更新をサポートし、最新のエクスポートデータソースに新しいレコードを追加したり、最後の修正のタイムスタンプを指定します。
SqoopはへとHive-のためのリレーショナルデータベース機能のうち、データを移動しているため のHadoop 専用のサポートは驚くべきことではない-有名なクラスのSQLデータ・ウェアハウスの生態系。コマンド「を作成・ハイブ・テーブルには、」インポートデータ・テーブル定義に使用することができる ハイブ
 

:(二つのバージョンのバージョン)は、完全最大sqoop1使用に互換性がありません

  sqoop1:1.4.xの

  sqoop2:1.99.x

 

同様の製品

  データX:アリトップレベルのデータ交換ツール

 

なお、ここでは、Hadoopのそれのインポートおよびエクスポートに相対的です!

 

 

 

 

でHDFSへのHadoopデータ:

 

 

にエクスポートするリレーショナルデータベース内HDFSデータ:

 

 

おすすめ

転載: www.cnblogs.com/wyh-study/p/12078226.html
おすすめ