ビッグデータコース L1 - ウェブサイトトラフィックプロジェクトの概要と全体的なアーキテクチャ

記事著者の電子メール: [email protected] 住所: 広東省恵州市

 ▲ この章のプログラム

⚪ Web サイトトラフィックプロジェクトの事例概要を理解します。

⚪ データの埋め込みポイントと Web サイトのトラフィック項目の収集を理解します。

⚪ Web サイトトラフィックプロジェクトの全体的な構造を理解します。

1. Webサイトトラフィックプロジェクトの概要

1. 背景説明

ウェブサイトのトラフィック統計は、ウェブサイトのサービスを向上させるための重要な手段の一つであり、ウェブサイト上でのユーザーの行動を把握することで、どのコンテンツが人気があるのか​​、どのページに問題があるのか​​を分析し、より的を絞ったウェブサイトの改善活動を行うことができます。

2. 統計指標の説明

一般的に使用される Web サイトのトラフィック統計指標には、通常、次の状況分析が含まれます。

1. オンライン状況による分析

オンライン状況分析は、オンラインユーザーの訪問時間、訪問地域、元ページ、現在の滞在ページなどの活動情報をそれぞれ記録します。これらの機能は、企業が自社の Web サイトのトラフィックをリアルタイムで把握するのに非常に役立ちます。

2. 期間別の分析

期間分析では、Web サイト上の任意の期間内のトラフィックの変化、または、短い期間の分布、毎日の訪問数の分布など、特定の期間から一定の期間までのトラフィックの変化を提供し、企業が把握するのに適した分析です。ユーザーが Web ページを閲覧する時間帯。

3. 情報源別の分析

ソース分析では、訪問数、IP、ユニーク訪問者、新規訪問者、新規訪問者のビュー数、ドメイン名によってもたらされたサイトビューの合計数などのデータが提供されます。このデータにより、企業はプロモーション効果の根源を直接把握することができ、どのWebサイトがより効果的な広告効果を発揮しているのかを分析することができます。

2. データの埋め込みと収集

1。概要

いわゆる埋め込みポイントは、アプリケーションの使用状況を追跡するためにアプリケーションの特定のプロセスで情報を収集し、それを使用して製品をさらに最適化したり、運用データのサポートを提供したりすることです。つまり、データ埋め込みを通じてデータを収集します。収集などのポイント: 訪問 (訪問数)、訪問者 (訪問者)、サイト滞在時間 (サイト滞在時間)、ページビュー (ページビュー、ページビューとも呼ばれます)、直帰率 (直帰率、直帰率とも呼ばれます) 。

一般的なデータ プラットフォームは、データ処理のための次の 5 つのステップで構成されます。

その中で人為的に第一歩を踏み出す、つまりデータの埋設と収集が最も基本的な課題となります。データ収集が豊富であるかどうか、収集されたデータが正確であるかどうか、収集がタイムリーであるかどうかは、データプラットフォーム全体のアプリケーション効果に直接影響します。

ポイントを埋める 2 つの方法:

1. あなた自身の会社が開発し、収集のために隠しコードを製品に挿入します。たとえば、隠しコードを js で記述し、アプリケーション Web サイトに配置します。

2. サードパーティの統計ツール (Umeng、Baidu Mobile、Rubik's Cube、App Annie、talking data など) を使用します。

このプロジェクトの実装:

ポイントの埋め込みはjsコードで実装します。特定の js スクリプトを作成し、ログ分析が必要な Web ページに埋め込みます (実際には、js ファイルは <script> タグを通じて埋め込まれます)。

3. ログデータ収集モジュールの説明

1。概要

ログ収集の最終的な目的は、ターゲット Web サイトへのユーザー アクセス ログを HDFS ファイル システムの特定のディレクトリに集約し、データ クリーニング モジュールの次のステップで処理できるようにすることです。この作業を完了するには、次の手順を実行する必要があります。

1. JS埋め込みポイント

2. ログサーバーのセットアップ

3. ログ収集

2. JS埋め込みポイント

特定の Web ページのアクセス状況を収集する必要があります。一般的な方法は、Web ページに JS スクリプトを埋め込み、ユーザーがそのページにアクセスしたときにページ上の JS スクリプトによって <image/> が動的に追加されるようにすることです。 <image/> の src 属性は、ログ サーバーにある透明な画像の URL アドレスを指します。

この URL パラメーターにはユーザーのアクセス情報 (訪問したページの URL、ユーザーを識別するための Cookie など) が付加されており、この情報はログ サーバーのアクセス ログ ファイルを分析することで取得できます (通常は nginx または apache) 。この JS 埋め込みスクリプトは、自分で記述することで実装できます。コード スニペットは次のとおりです。

jsのメイン関数コード:

関数 ar_main() {

//収集後にログが送信されるパス

おすすめ

転載: blog.csdn.net/u013955758/article/details/132723480