Hiveには、内部テーブルと外部テーブルの2種類のテーブルがあります。
Hiveは主にデータウェアハウスの構築に使用されます。では、データウェアハウスでは、2種類のテーブルをどのように選択すればよいでしょうか。?
ここにいくつかの原則があります:
1.ほとんどのシナリオでは、2つのテーブルのアプリケーションに大きな違いはありません。
2.データシナリオは単純で、ほとんどすべてがHiveの循環にあり、内部テーブルを優先できます。
3.データコンテンツとメタデータのコンパクトな管理が必要であり、内部テーブルが推奨されます。
たとえば、計算プロセスで使用される一時テーブルを担当し、データコンテンツは必要に応じて削除され、基礎となるファイルに注意を払いたくありません。
4.多くのデータ処理シーンがあり、複雑です。外部テーブルを使用することをお勧めします。
たとえば、複雑なデータを処理するにはSpark、Mapreduceなどを使用し、その後の処理にはHiveを使用する必要があります。構造化されていないログデータを処理する必要があります。
5.データとメタデータの個別の管理が必要なシナリオ、およびより高度なデータセキュリティが必要なシナリオの場合、外部テーブルを使用することをお勧めします。