Hive_Hive内部および外部テーブルの選択

Hiveには、内部テーブルと外部テーブルの2種類のテーブルがあります。

Hiveは主にデータウェアハウスの構築に使用されます。では、データウェアハウスでは、2種類のテーブルをどのように選択すればよいでしょうか。

 

 

ここにいくつかの原則があります:

 

    1.ほとんどのシナリオでは、2つのテーブルのアプリケーションに大きな違いはありません。

 

    2.データシナリオは単純で、ほとんどすべてがHiveの循環にあり、内部テーブルを優先できます。


    
    3.データコンテンツとメタデータのコンパクトな管理が必要であり、内部テーブルが推奨されます。

たとえば、計算プロセスで使用される一時テーブルを担当し、データコンテンツは必要に応じて削除され、基礎となるファイルに注意を払いたくありません。

  

   4.多くのデータ処理シーンがあり、複雑です。外部テーブルを使用することをお勧めします。

たとえば、複雑なデータを処理するにはSpark、Mapreduceなどを使用し、その後の処理にはHiveを使用する必要があります。構造化されていないログデータを処理する必要があります。

 

  5.データとメタデータの個別の管理が必要なシナリオ、およびより高度なデータセキュリティが必要なシナリオの場合、外部テーブルを使用することをお勧めします。 

 

元の記事を519件公開 1146 件を賞賛 283万回の閲覧

おすすめ

転載: blog.csdn.net/u010003835/article/details/105233497