MapRreduceユーザー行動ログ分析を理解する

MapReduceを知っている

mapperreduceとは
MapReduceは、Google MapReuceのクローンであるGoogleの論文から派生したもので、分割統治の概念を完全に利用して、データ処理プロセスをMap(マッピング)とReduce(マージ)。
このように、ユーザーが分散コンピューティングフレームワークの内部操作メカニズムを理解していなくても、Map and Reduceのアイデアを使用して、対処すべき問題を明確に説明できる限りです。つまり、mapとreduce関数を記述し、コンピューティングを使用して分散を実現し、Hadoopでmapreduceの特性を実行することが簡単にできます


MapReduceのプログラミングモデルのおかげで簡単な開発、ユーザーはプロセス間通信やソケットプログラミングを考慮する必要がなく、非常に高度なスキルを必要とせず、いくつかの簡単なロジックを実装するだけで、残りはMapReduceコンピューティングフレームワークによって完了します。 、これにより、分散プログラムのプログラミングの難しさが大幅に簡素化されます。
強力なスケーラビリティ
HDFSのように、クラスターリソースがコンピューティング要件を満たすことができない場合、クラスターの線形拡張の目的は、ノードを追加することで実現できます。
強力なフォールトトレランス。
ノード障害によって引き起こされたジョブ障害の場合、MapReduceコンピューティングフレームワークは、タスクが完了するまで、正常なノードでジョブが再実行されるように自動的にスケジュールします。これらは、上の図に示すように、ユーザーに対して透過的
です。
ここに画像の説明を挿入します

MapReduceプロジェクトの戦闘-ユーザートラフィックランキング

ユーザー行動ログとは何ですか?
ユーザー行動ログ(ユーザー行動追跡/トラフィックログ)は、ユーザーがWebサイトにアクセスするたびに、すべての行動データ(訪問、閲覧、検索、クリックなど)を表します。

ユーザー分析の意味!

ウェブサイトの目は
どこから来て、彼らは何を探していますか?どのページが最も人気がありますか?どこから来たの?
ウェブサイトの神経
ページ構造をどのように設計するか?ユーザーが使いやすくするためにリンクをどのように設計する必要がありますか?カタログをデザインしてユーザーエクスペリエンスを変更するにはどうすればよいですか?
ウェブサイトの頭脳は
目標を分析します。たとえば、特定の都市での特定の製品の売上比率に応じて適切な広告予算を分析します。

コードについてナンセンスな話をしないでください!

**準備**
1。1つの疑似分散仮想マシン!
2. Hadoop + jdkの完全な構成
プロセス
1.MapReduceを使用してデータをクリーンアップし、hdfs
ディレクトリ構造、
ここに画像の説明を挿入します
flowbeanクラス、
ここに画像の説明を挿入します
mapperクラス、
ここに画像の説明を挿入します
reduceクラス、
ここに画像の説明を挿入します
submitクラス
ここに画像の説明を挿入します
、hadoopでのタスクの送信 mavenがある場合は
jarファイルのパッケージ化にアップロードし
ます。パッケージ化操作にMavenを使用します。そうでない場合は、Eclipseを使用できます。パッケージ化ツールのみが付属しています
ここに画像の説明を挿入します

![挿入ここに画像の説明](https://img-blog.csdnimg.cn/20200815131359632.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG3XDI0FF_color_center_color、
ここに画像の説明を挿入します
ここに画像の説明を挿入します
へのアップロード16FF_color_aHR0CHM6Ly9ibG9nLmNz_20200815131359632.png.png?X- oss-process = image / watermark、type_ZmFuZ3poZW5naGVpdGk、shadow_10、text_aHR0cHM6Ly9ibG9nLmNz_color_center liunxは、jarタスク
ここに画像の説明を挿入します
実行するためにhadoopサービスを開始し
ここに画像の説明を挿入します
ます
ここに画像の説明を挿入します

ここに画像の説明を挿入します
入力パスと出力パスが続きます

hdfsビュー
ここに画像の説明を挿入します
ここに画像の説明を挿入します
**データに合計トラフィックがないため、合計トラフィックは0になりました**

  • 総括する
  • シンプルなmapreduceは必要なデータを保持します
  • クリーンアップされたデータを明日ハイブに書き込む

おすすめ

転載: blog.csdn.net/m0_46937429/article/details/108020652