Pythonのスクレイピーフレームワークで特定ブランドのデータ収集を実現

ブランドデータのコレクション

収集要件

アドレス: http://www.winshangdata.com/brandList

要件: このサイトでデータを収集するには、scrapy フレームワークを使用します。キャプチャするには少なくとも 5 つのカテゴリが必要で、データ量は 5000 以上必要です。

収集項目:タイトル、作成時刻、出店方法、協力期間、エリア要件

ウェブ分析

サイトに入ると以下のようなページになります

ここに画像の説明を挿入

ここに画像の説明を挿入

f12 を開いてネットワーク列に切り替え、Web ページを更新するか、次のページをクリックしてリクエストを取得します

ここに画像の説明を挿入

返されたjsonデータを分析すると、必要なタイトルとエリアの要件のみを取得できることがわかりました。

ここに画像の説明を挿入

ここに画像の説明を挿入

そのため、分析のために Web ページの詳細ページに入る必要があります。詳細ページに入ると、必要な残りのパラメータが Web ページの li タグにあることがわかり、xpath などを通じて取得できるため、Web ページがジャンプします。

おすすめ

転載: blog.csdn.net/m0_46467017/article/details/131984551