ツールを接続Sqoop(sqoop.apache.org)ブリッジは、ストレージシステム内のリレーショナル・データベース、およびHadoopのHadoopの環境であり、そしてソースハイブリレーショナルデータの様々なサポート、HDFSは、相互導入のHBase。一般的には、データテーブル間の関係は、一日あたりのデータのインポートの必要性は、データ量の点では毎日が、完全なテーブルを導入Sqoopもオンライン環境のバックアップ環境に存在して、その日の状況ごとに生成されるデータの量かもしれない偉大なフルテーブルインポート、しかしsqoopも増分データのインポートするためのメカニズムを提供します。
sqoop1とsqoop2比較:
コントラストバージョン
これは、2つの完全に異なるバージョン、互換性のない2つの世代の間にある
sqoop1:1.4.xの
sqoop2:1.99.x
sqoop1の改善よりもsqoop2
(1)sqoopサーバ、集中管理コネクタ、等導入
(2)アクセス方法の多様:CLI、UIウェブ、RESTのAPI
(3)ロールベースのセキュリティメカニズムの導入を
sqoop2とsqoop1の機能比較
機能 | Sqoop 1 | Sqoop 2 |
すべての主要なRDBMSコネクター | サポート | サポートされていません ソリューション:Microsoft SQL Serverの、PostgreSQLのは、MySQLとOracle:使用ユニバーサルJDBCコネクタは、次のデータベースでテストを行っています。 このコネクタは、他のJDBC準拠のデータベース要件に実行する必要があります。ただし、パフォーマンスは、専用のコネクタと比較することはできませんSqoop |
Kerberosのセキュリティ統合 | サポート | サポートしていません。 |
またはRDBMSのHBaseからハイブのデータ伝送 | サポート | サポートされていません ソリューション:この操作の2段階方法に従ってください。ハイブのツールおよびコマンド(例えばLOAD DATA文)を使用して、RDBMS HDFSからデータをインポートし、データを手動でロードまたはHBaseのハイブれます |
RDBMSハイブへ又はから送信HBaseのデータ | サポートされていません ソリューション:この操作の2段階方法に従ってください。HDFSの使用に抽出から、またはハイブHBaseのデータをRDBMSに前のステップで導出Sqoop出力(テキストファイルまたはアブロなど) |
サポートしていません 同じソリューションおよびオペレーティングSqoopを1 |
sqoop1とsqoop2長所と短所:
- 展開するためのシンプルなアーキテクチャの利点sqoop1
インストールはroot権限が必要です、コネクタモデルは、JDBCを遵守しなければなりません
- 対話モード、コマンドライン、ウェブUI、残りのAPIの様々なSqoop2利点は、conncetorは、すべてのリンクがsqoopサーバーにインストールされ、データの読み書きのための唯一の責任の完全な権利管理機構、コネクタの標準化を、管理を一元化しました。