ビッグデータ技術の夏のインターンシップ7 ___インターネットマーケティング正確な意思決定(ロード・データ・ソース)

1. Hadoopの環境を入力します(あなたはsshコマンドを設定する場合のHadoopのインストールディレクトリを実行するために、開始を直接実行することができます)

2. [スタート]ハイブプロセス(雨にオンラインチュートリアルを構成したり、森は、もはや詳細に入ることはできないとして) 

  シェルに

3.データをロードプロジェクトの実用的な操作でハイブデータベースは(クエリにはお勧めしませんに*を選択し、唯一のテーブル構造とデータの結果を確認する場合は、クエリのカラム名に基づいている必要があり、我々は、制限を加えることをお勧めしますあなたは~~ chacaraを折りたたむしたいそうでない場合は機械カード)

ハイブ>は、表を表示します。表##参照
ハイブ > hive_tableフォーマットされたDESCを、##記述情報hive_table DESC 
ハイブ > ALTER TABLEテーブル名が新しい名前に名前を変更し、##テーブルの名前を変更する
ハイブ > ALTER TABLEテーブルはカラム(列名タイプを追加します); ##増加列
ハイブ >テーブルテーブルのid test_id変更ALTER int型、## idカラム名が変更されtest_idの
ハイブ >テーブルテーブルID test_id変更ALTER   ダブルを年齢した後、##名前を変更test_id idとに遅い年齢
ハイブ >表の列のテーブル名を置き換える変更(CCの   INT、BB 文字列、IDのINT );あるいは##カラム(カラムの修正及び代替フルテーブル)
ハイブ >テーブルstu_infoを切り捨て、##クリアデータクリアデータテーブルのみを切り捨てる
ハイブ > stu_test表をドロップし、メタデータは、##のテーブルや情報のテーブルを削除
ハイブ > ドロップデータベースをhive_drop;#データベース削除
ハイブ > CASCADEがhive_testドロップデータベース; ##が削除されますがデータベーステーブルは、
ハイブ > ##ビュー機能を使用しています。DESEは機能
ハイブ > DESE機能拡張ケースを、表示##詳細な使用機能を
ハイブ基本的なデータベース操作
1 
アクションテーブル
ケトルを使用して、
表アクション1(作成
USER_ID 
goods_id 
USER_ACTIONのINT 
deal_month 文字
deal_day 
フォーマット区切られたフィールドによって終了行の   ;     // カンマで区切られた
ローカルデータをロードする
ローカルデータINPATHをロード' パステーブル・アクション1に、
組み合わせdeal_month deal_dayはにより、deal_timeある『 - 』スプライシング、新しいテーブルを保存
CREATE TABLEアクションaSにSELECT

 user_idは、goods_id、USER_ACTION、CONCAT(deal_month、- 、deal_day)AS deal_time からアクション1; 

新しいテーブル構造の確認
DESCアクションを、

データが参照
SELECT * からのテーブルの制限100 ; 
 
エクスポートテーブルデータのローカルファイルへの
INSERTは、ローカルディレクトリの上書き" ローカルをパスで終わる行形式区切られたフィールド"  SELECT * からテーブル名; //がパスにスペースが含まれていない、エクスポートされたファイルのみがこのパスの下にエクスポートされたファイルを保存することができます引用し、次回は、エクスポートファイルは上書きされます

2 
表sail_info 
注コーディング、選択コーディング構造(UTF TXTに変換するとき、典型的にSCV - 。8)、否则会有乱码

建表紙
テーブルsail_infoを作成する(goods_id 文字列、goods_name 文字列、goods_propertyの文字列、STORE_NAMEの文字列、STORE_IDの文字列、goods_url 文字列、goods_priceのフロート、キーワード文字列、sail_count int型、good_rate int型、ブランド文字列、モデルの文字列、色の文字列、time_to_marketのストリング、operate_system 
によって終了行フォーマット区切られたフィールド

空である列でテーブルの行を削除し、再格納する
表の作成IFテーブル名が存在しないAS  SELECT * から名前WHEREの長さ(列名)> 1 ; 

3 
User.info表

作成する
表を作成IF EXISTSないデフォルト .user_infoを(ユーザーIDを文字列、ユーザー名の文字列、アドレス文字列、性別の、誕生日のString)形式によって終了行区切られたフィールド\ T ; 

サブ年齢に別のテーブルに格納されている日付は、
テーブルを作成したIFないがuser_info_ageをEXISTS 選択し、ユーザID、ユーザ名、住所、性別、ラウンド(DATEDIFF(' 2019年9月8日15時00分00秒'、REGEXP_REPLACE(CONCAT(誕生日、' 15時00分00秒')、" \" " " " )/ 365から USER_INFOリミット50 
导出
インサートは、ローカルディレクトリの上書き/ホーム/ Hadoopの/データ行フォーマット区切られたフィールドがにより終了選択 * から、user_info_age 
年龄区段選択し、ユーザーID、年齢を場合とき(年齢<
 

18)次いで、' 1 'と(18 <=年齢<= 24)を' 2 'と(25 <=年齢<= 29)を' 3 '  そう ' 7 '末端として REGIN からuser_info_age; 

去掉空行:
テーブルを作成しますもし名前が存在しないように 、選択 * からの名前の長さ(位置)> 1 ; 
年龄区段转存新表
テーブルを作成する場合 user_info_regin存在しません
 選択し、ユーザID、ユーザ名、住所、性別、ケース場合(年齢< 18)を1 と(の間の年齢18および24)を2 と(の間の年齢25および29)を3 ときの間(年齢30および34)を4 ときの間(年齢35および39)を5 との間の(年齢40および49)その後、6。  7。エンドAS REGIN からuser_info_age_true、

年齢・ベースのカテゴリーの
表を作成したIFないがuser_info_regin_aliasをEXISTS AS  SELECTユーザーID、ユーザ名、住所、性別、REGIN、ケース(REGIN =とき。1)、次に18歳です場合(REGIN = 2)を18〜24歳と(REGIN = 3)を29から25の間の歳(REGIN = 4)を' 30〜34年とき(REGIN = 5。 その後、35〜39年の間にとき(REGIN = 6。それから)40〜49   50歳以上のエンドAS   user_age_regin_alias から  user_info_regin、

ユーザーID user_info_regin_alias削除「」のフィールド
を作成、テーブルのIFないがUSER_INFO EXISTS AS  SELECT REGEXP_REPLACE(ユーザーID、\」」 ")、ユーザ名、住所、性別、REGIN、user_age_regin_alias からuser_info_regin_aliasを、

接続しているユーザテーブルコメントフィールドのuserrankを取得します
CREATE TABLEは、たIFユーザー情報が存在しないように 選択 user_info.userid、user_info.username、user_info.address、user_info.gender、user_info.regin、user_info.user_age_regin_alias、comment_ture.userrank から USER_INFO user_info.userid = comment_ture.useridにcomment_tureに参加します。
データソースのロード

次のように、データ処理結果テーブル構造の効果です。

 

 

 

おすすめ

転載: www.cnblogs.com/wjwjs/p/11504244.html