バイパス抗爬虫類の戦闘へのUser-Agent
ユーザエージェントクローラは、複数の一次抗クローラ手段でユーザ認証要求ヘッダのUser-Agent値を介して、正常とクローラとの間で区別するサーバ手段です。
"""
User-Agent 反爬虫绕过实战
实例1.校园新闻网列表页User-Agent反爬虫
任务:爬取校园新闻网站页面右侧“本周热点”列表中的新闻标题
URL:http://www.porters.vip/verify/uas/index.html
"""
import requests
from parsel import Selector
url = 'http://www.porters.vip/verify/uas/index.html'
#向目标网站发起请求
resp = requests.get(url=url)
#打印输出状态码
print(resp.status_code)
#如果本次请求的状态码为200,则继续,否则提示失败
if resp.status_code == 200:
sel = Selector(resp.text)
#根据HTML标签和属性从响应正文中提取新闻标题
res = sel.css('.list-group-item::text').extract()
print(res)
else:
print('This request is Fial !')
なぜこれが、要求は成功しませんでしたが、ブラウザが正常に開くことができますか?問題が何であるかのサイトには、我々はポストマンを試すことができますされ、ポストマンは、以下の結果を要求します