PythonのWebクローラー情報

1.クロールJingdongの情報
ここに画像を挿入説明
2.上の情報のページをクロール
爬虫類の要求が拒否されていない、比較的目に見えない、ビューのネットワークヘッドをクロールに制限があり、多くのサイトで、されています。
ここに画像を挿入説明
ビューのヘッダ情報を、あなたは頭を見に訪れることができます、減少することができる
ここに画像を挿入説明
、我々はキーと値のペアを構築して、URL ..上のヘッダ情報に変更
キロボルト= {「のMozilla / 5.0」「のUser-Agent」}を
ここに画像を挿入説明

3. Baiduは/ 360キーワード検索の提出
:Baiduのキーワード単語インタフェース
http://www.baidu.com/s?wd=keyword
360インターフェースキーワード:
http://www.so.com/s?q=をキーワード
我々が構築できるように、URLがキーワードに抽出することができます
ここに画像を挿入説明

公開された75元の記事 ウォンの賞賛4 ビュー5037

おすすめ

転載: blog.csdn.net/ysy_1_2/article/details/104973187