問題の説明
いくつかのクレソン映画レビューを クロールする図書館の使用要求、status_code
コードは、成功を表すときのように、公式文書のショーに418
基づいています。公式のgithubの問題(「ハッピーディスカッション」の問題など)やその他の情報を確認したところ、クロールされたWebサイトにアンチクロールメカニズムがあることがわかり、KO〜でした。status_code
200
get
418
解決
方法は非常に簡単です〜アンチクローラーによって認識されないようにリクエストheader
を追加UserAgent
することです。UserAgent
私のブラウザはChromeなので、ローカル情報を取得しますchrome://version/
。ブラウザのアドレスバーに直接追加してコピーをクエリできます。
headers = {
'User-Agent' : '本机UserAgent的信息'}
url = '爬取的网址'
r = requests.get(url,headers = headers)
r.status_code
幸いなことに問題を解決し、にstatus_code
なりました200
。