ウェブスクレーパーは、データを取得し、簡単なデータ分析を行います

実際には、最終的な分析でウェブスクレーパーは小さなこと、すべてのサイトが類似し、まだ異なっているということです。これはまた、多くの学生が常に満たさ問題の原因です。統一テンプレートが用意されていないがあるので、我々は原則ウェブスクレイパーを理解し、標的部位でなければなりません分析する必要があります。
今日はウェブスクレーパーを使用するだけでなく、ウェブスクレーパークロールデータに関する記事を紹介するだけでなく、いくつかの単純なデータ処理と分析が含まれます。彼らはもはや基礎の基礎ません。
一つの理由は、開発者が上記のコースをたくさん買って、理由があるということです。このサイトを選択し、それはまた、あなたがロードするためにスクロールし、ロードするために、ボタンをクリックする必要があり、より多くの機能を持っている列であるということです。

仕事をクロールの公式の開始前に、私の結果を初めて目、私は総売上高とサブスクリプションの90の以上の列をつかむために持っているの並べ替えをした、TOP 10、次に出てヒストグラムを行いますアウト。

クロールデータ

このサイトに注意を払う必要があります今日は、支払ったITの知識のコミュニティである時間をオタク、学生のほとんどは、インターネット界の聞いたことがあるはずです、私はどのように読むことをしていないが、私は上記まだだ9コースを買いました。

オタクタイムホームリストは、すべてのネットワーククラス、およびロードのジェーンブックホームは、より多くのボタンがよりロードされたなりのロードをクリックし、ドロップダウンをロールする前にロードされます。これは典型的な負荷のサイトで、Webサイトの多くは、次の2つの方法の組み合わせがありますされています。これは、私たちにいくつかのトラブルを作成したWebスクレーパー漁獲データだけでなく、良い解決策を提供します。

1、に開始URLを設定し、サイトマップを作成しますhttps://time.geekbang.org/

2、これは単なる補助で、圧延荷重のセレクタを作成し、ページをロードするために私たちを助けに読み込み]をクリックMoreボタンが表示され、次のように設定し、スクロールダウンの注目要素の種類を選択し表示され、要素として地域のコースのリスト全体を選択します。

3は、より多くのボタンセレクタをロードするためにクリックし作成し、これはセレクタをクロールする実際のコンテンツです。After'llその下のサブセレクタを作成します。あなたが作成する前に、負荷よりボタンまで、ドロップダウンページを記録する必要があります。

最初の要素型の要素のクリックを選択します。

コースのリスト全体を選択するセレクタ、および複数に設定されています。

それはページがロードされるアクションをクリックトリガー、その有効キーイベントを確認し、Sキーを押しますと、ここで注意すべき選択ロードMoreボタン、ポイントも言及した以前の記事をクリックして、これは、選択されたボタンをクリックする方法はありませんボタンを選択します。

より多くの種類をクリックしてタイプセットをクリックします。

要素の一意性设置独自のCSSセレクタをクリックします。

図4は、前のステップで作成したセレクタに、必要な最終のコンテンツをクロールするサブセレクタを作成します。

5、最後の実行は友達になれるクロール。

データクリーニング

ここで、洗浄とよりの労力と時間のかかる作業もするだけの非常にシンプルなデモ、データの実大容量です。しかし、Excelは、だけでなく、プログラムコードと、データベースはもちろん、比較的単純なデータや学生の開発の経験がないため、ほとんどの時間を使用することになる達成できるよりもはるかに、エクセルの使用が最もシンプルで簡単な選択でありますA。

最初のWebスクレーパー列情報が自動的に生成されたCSVファイルを開いているファイルを、それが直接削除することができます。私はいくつかの重複データ、最初のステップ、最初の重複が可能[削除]をクリックし、Excelの「データ」タブに重複を削除があり、どのような理由がわかりません。

時間ダウンキャッチと同じ要素で応募者の数は、ウェブスクレーパーで直接2つの列を入れする方法、それが唯一のExcelに扱うことはできないため、2番目のステップ、。私の考えでは、リストのコピーを作成するために、この操作であり、その式を置き換えるために、ヌル文字の内の1つの応募者の数を置き換えるための代替方法のコンテンツを使用することである讲 | *人已学习ので、このコラムは、レッスンの列になります。1クラスの添加は、xが言う置き換えるために、空の文字列に置き換えられ、内容を交換することで*讲 |、交換し人已学习、この列には、応募者の列番号になります。価格は、現在の価格を維持し、不要な列を削除し、を処分します限时、拼团、¥これらの役に立たない文字。

データ分析

ここで撮影したデータは比較的簡単ですので、私たちはどんな結果を分析できることを期待していませんでした。最も人気のある、最高価格分析の分析であるもちろん、90数コース、の合計。ちゃんと順番に直接行でExcel。その後、いくつかのコースの合計金額を計算します。

もちろん、実際のビジネスは、Excelがものを得るためにマップを描くだけで、データ分析ではありません。また、それは、二つの棒グラフを取得することが可能であり、一般的に複数の次元、データの相関分析、マイニングの深さが必要です。

Excelで2つの棒グラフを作り、統計情報は、加入者の前にトップ1010年と売上の合計金額でした。ここでは、最終的なレンダリングがあります。

Excelを使用しない場合、また、いくつかの基本的なアップロードExcelのグラフを行うことができますいくつかのオンラインチャートのウェブサイトが、ほとんど少し柔軟性があります。私は、「チャートの表示(使用https://www.tubiaoxiu.com/を)」、Excelは、アップロードすることができ、またExcelを編集するには、列を削除することができ、行と他の操作を削除し、これは他のオンラインプラットフォームチャートと比較され、このようBaiduの「イラスト。」などの利点、ここで私は、単純なヒストグラム、ヒストグラムチャートに加えても良い品種をサポートです。

上記適切な基準として、データ取り込みおよび解析処理を行うだけアマチュア選手です。

次Fanger魏コードスキャン、国民の関心番号:
返信「エクセル」この例では、Excelデータファイルを取得します。

「返信jike」この例のサイトマップを取得します。

ねたむしないでください、あなたの「お勧めしますよ」

ようこそ注意がときどき記事や他のこのシリーズの更新
、公開番号:古时的风筝

関連読書:

最も簡単なクロールもちろん、誰もがそれらを必要とします

ウェブスクレーパーがコースを進んで、誰もがそれらを必要とします

ウェブスクレーパー共通いくつかのマイナーな問題

おすすめ

転載: www.cnblogs.com/fengzheng/p/11509191.html