この記事では、小さなシリーズは今、誰もが共有するための、非常に良い感じどのようにPythonは抗クローラウェブクローラを逃れカモフラージュする方法について説明し、だけでなく、基準となります。
また、急に与えられているすべての突然の、[OK]を実行する前に、時々、私たちは、爬虫類のための良いコードを書くでしょう。
次のような情報を与えられました:
HTTP 800内部インターネットエラー
既存の爬虫類コードが拒否される場合は、あなたの標的部位は、抗クローラを設定するためです。
次のように通常のコードの前に爬虫類は以下のとおりです。
1 from urllib.request import urlopen
2 ...
3 html = urlopen(scrapeUrl)
4 bsObj = BeautifulSoup(html.read(), "html.parser")
今回は、を装って実行するクローラのコードを与える必要があり、
それに追加するには、ブラウザからのリクエストヘッダを装っています
修正されたコードを次のように
在学习过程中有什么不懂得可以加我的
python学习交流扣扣qun,×××
群里有不错的学习视频教程、开发工具与电子书籍。
与你分享python企业当下人才需求及怎么从零基础学习好python,和学习什么内容
1 import urllib.parse
2 import urllib.request
3 from bs4 import BeautifulSoup
4 ...
5 req = urllib.request.Request(scrapeUrl)
6 req.add_header('User-Agent', 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)')
7 response = urllib.request.urlopen(req)
8 html = response.read()
9
10 bsObj = BeautifulSoup(html, "html.parser")
[OK]を、我々は、彼らが上昇し続けることができ、完了です。
それはすべてが、この記事のために、私は、かなり良い記事がゆっくり隠蔽可能性を感じる任意の提案やコメントは、コメントエリアでの議論を共有するために歓迎されています!