Hadoop Douban映画データ分析に基づく(包括的な実験)

Hadoopは、ビッグデータを処理するための重要な分散アーキテクチャです。すべてのコンポーネントと知識ポイントに習熟していることが非常に重要です。現代社会によって生成される膨大な量の情報により、ビッグデータはもはや単なる調査分野ではありません。それはビジネス慣行とマーケティング戦略を変える強力な力です。BCGによると、ビッグデータは分散した小売業者の売上を3%から4%増加させるのに役立ちます。

Hadoopは、2006年にApache Software Foundationによって立ち上げられました。これは、コンピュータークラスター間でデータを処理および保存できるオープンソースソフトウェアのセットです。Hadoopは主に分析ツールとして開発されており、ビッグデータ分析に特に効果的であることが事実から証明されています。構造化データと非構造化データを処理でき、大規模なストレージ機能を備え、ほぼ無制限の並列タスクを処理できます。

Hadoopは、次の4つの主要モジュールで構成されています。

分散ファイルシステム1はHDFSとも呼ばれ、リンクされたストレージデバイスのネットワーク全体にデータを保存できます。MapReduce1はデータベースからデータを読み取り、変換し、分析します。HadoopCommonは、他のモジュールを補完し、ユーザーのコンピューターとの互換性を確保できるツールとライブラリのセットです。システムの互換性;クラスターシステムマネージャーのYARN。

クラスターストレージシステムは、同時に多くのデバイスで実行できるため、データ処理を高速化できます。これにより、Hadoopは、大規模なデータセットを処理する必要のあるプロジェクトに不可欠です。さらに、このフレームワークは柔軟性が高く、あらゆる企業のニーズに拡張できます。

Hadoopの使用:

顧客分析では、ユーザーデータからの洞察に基づいて、パーソナライズされたサービス、見積もり、広告を提供できます。エンタープライズプロジェクトでは、さまざまなサーバーに保存されているデータを効果的に管理および処理できます。データレイク-Hadoopは、さまざまな情報ストリームからの元のデータの作成をサポートします。ストレージを拡張します。これは後で構造化して分析できます。

以下は、Hadoopをレビューするための重要なリソースとしてのHadoop包括的な実験を示しています

ここに写真の説明を挿入

実験の紹介

Doubanユーザーは、毎日「非常に悪い」から「非常に推奨」まで「視聴した」映画を評価します。Doubanは、アルゴリズム分析を使用して、各映画を視聴した人の数と映画の評価に基づいてDouban MovieTopを生成します。 250。
映画業界の発展傾向を分析するには、この情報の統計分析を行う必要があります。
Douban Webサイトのデータ形式はテキストファイルです(処理するにはハイブにインポートする必要があります)。
ファイルの内容は次のとおりです。
ここに写真の説明を挿入

分析する指標は次のとおりです
。1。平均評価が最も高い映画の種類。
必要な出力:平均ジャンルスコア
2、どの国が悪い映画の王であるか(平均スコアが6ポイント未満の国)。
必要な出力:全国平均スコア。
クエリを簡単に行うには、すべての統計インジケーターをhbaseにエクスポートする必要があります。2つのテーブル(1つのインジケーターと1つのテーブル)にエクスポートし、hbaseシェルに書き込んだ結果データを表示します。

さらに、この操作のログを残し、hdfsの/ logの下に独自の操作レコードをアップロードする必要があります。
操作レコードの形式は次のとおりです。

番号名稼働時間
012020-12-21 10:52:12

ここからデータセットをダウンロードします

環境を整える

hdfsを開始します

start-all.sh

ハイブを開始します

hive

ここに写真の説明を挿入
データベースとデータテーブルを作成する

create database douban;
use douban;
create table `douban`.`data`  (
  `id` varchar(255) ,
  `name` varchar(255) ,
  `nop` varchar(255) ,
  `typle` varchar(255),
  `pop` varchar(255),
  `rtime` varchar(255),
  `longtime` varchar(255),
  `ageyear` varchar(255),
  `grade` varchar(255),
  `plocation` varchar(255)
) 
row format delimited fields terminated by ','
stored as textfile;
分别代表:id,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点

ここに写真の説明を挿入
ここに写真の説明を挿入
habaseを開始します

start-hbase.sh
hbase shell

ここに写真の説明を挿入
データのインポートとロードおよび表示

LOAD DATA LOCAL INPATH '/home/hadoop/douban_movie.txt' INTO TABLE data;
select * from data;

ここに写真の説明を挿入
データ解析

平均評価が最も高いのはどのタイプの映画ですか。
必要な出力:タイプの平均スコア

select typle,AVG(grade) as t from data GROUP BY typle ORDER BY t DESC LIMIT 1;

ここに写真の説明を挿入

哪个国家是烂片之王(平均评分小于6分的国家)。
要求输出:国家  平均分
select pop,AVG(grade) as t from data GROUP BY pop HAVING t<6;

ここに写真の説明を挿入

データをhbaseにエクスポートします(手動で挿入します)

ハイブとhbaseの相互コンダクタンスを比較する手間は、以降の記事で詳しく紹介します。

データシートを作成する1

create 'result','info'

put 'result','1','info:西部','9.1'

ここに写真の説明を挿入
ここに写真の説明を挿入
hbaseは中国語で表示できないことがわかったので、次は英語を使用します

create 'result_1','info'
put 'result_1','1','info:moxige,bolan','5.8,5.7'
scan 'result_1'

ここに写真の説明を挿入
ログレコードをhdfsの下の/ logにアップロードします

まず、hdfsにフォルダを作成します

hdfs dfs -mkdir /log
vi data
编号		姓名		操作时间     
01			王小王		2020-12-21 10:52:12    

ここに写真の説明を挿入
ログレコードをアップロードする

hdfs dfs -copyFromLocal /home/hadoop/data /log/
hdfs dfs -ls /
hdfs dfs  -cat /log/data

ここに写真の説明を挿入
OK、実験はここにあります、そして最後に私はあなたにすべての幸せなクリスマスイブを願っています!
ここに写真の説明を挿入

テキストごとに1つの単語

始まりと終わりは一緒に化学反応です。あなたが毎日暖かい自己を持っているように、さあ

おすすめ

転載: blog.csdn.net/weixin_47723732/article/details/111657756