Pythonクローラー-ステータスコード418を要求します

問題の説明

いくつかのクレソン映画レビューを  クロールする図書館の使用要求status_codeコードは成功を表すときのよう公式文書のショーに418
問題の説明
  基づいています公式のgithubの問題(「ハッピーディスカッション」の問題など)やその他の情報を確認したところ、クロールされたWebサイトにアンチクロールメカニズムがあることがわかり、KO〜でした。status_code200get418

解決

  方法は非常に簡単です〜アンチクローラーによって認識されないようにリクエストheader追加UserAgentすることです。UserAgent私のブラウザはChromeなので、ローカル情報を取得しますchrome://version/ブラウザのアドレスバーに直接追加してコピーをクエリできます。

headers = {
    
    'User-Agent' : '本机UserAgent的信息'}
url = '爬取的网址'
r = requests.get(url,headers = headers)
r.status_code

  幸いなことに問題を解決し、にstatus_codeなりました200

参照リンク

ステータスコードを
要求する公式ドキュメント
参照ソリューションUserAgentを要求する

おすすめ

転載: blog.csdn.net/weixin_40807714/article/details/109579279