不止是User-Agent反爬虫

其他 2020-03-29 16:01:05 阅读次数: 0

User-Agent 反爬虫绕过实战

User-Agent爬虫指的是服务器通过校验请求头中的User-Agent值来区分正常用户和爬虫程序的手段，这是一种较为初级的反爬虫手段。

"""
User-Agent 反爬虫绕过实战
实例1.校园新闻网列表页User-Agent反爬虫
任务：爬取校园新闻网站页面右侧“本周热点”列表中的新闻标题
URL：http://www.porters.vip/verify/uas/index.html
"""

import requests
from parsel import Selector

url = 'http://www.porters.vip/verify/uas/index.html'

#向目标网站发起请求
resp = requests.get(url=url)
#打印输出状态码
print(resp.status_code)
#如果本次请求的状态码为200，则继续，否则提示失败
if resp.status_code == 200:
    sel = Selector(resp.text)
    #根据HTML标签和属性从响应正文中提取新闻标题
    res = sel.css('.list-group-item::text').extract()
    print(res)
else:
    print('This request is Fial !')

在这里插入图片描述
请求并没有成功，但是浏览器可以正常打开，这是为什么呢？难道是网站出了什么问题，我们可以用Postman试一试，Postman请求结果如下
html>

猜你喜欢

转载自blog.csdn.net/weixin_43870646/article/details/105117331

不止是User-Agent反爬虫

python反爬虫，User-Agent方式

不止是Cookie反爬虫

使用CDN的User-Agent反爬虫（附User-Agent恶意爬虫名单）

爬虫 User-Agent

不止是CSS偏移反爬虫

不止是图片伪装反爬虫

不止是动态渲染反爬虫

爬虫之User-Agent

python基于scrapy框架的网络爬虫程序反爬虫机制之User-Agent伪装

反爬虫机制（一）----伪装User-Agent之fake-useragent

动态ip代理：反网络爬虫之设置User-Agent的常规方法

反爬虫机制----伪装User-Agent之fake-useragent

爬虫如何应对网站的反爬机制？如何查找user-agent对应的值

网络爬虫的User-Agent和Proxy

爬虫时直接可用的User-Agent

Python 爬虫更改User-Agent

爬虫-User-Agent和代理池

python 爬虫 user-agent 生成

python 爬虫随机换user-agent

自己整理的模拟爬虫的user-agent

Python爬虫动态User-Agent

Python 爬虫使用随机 User-Agent

伪造进行爬虫，修改user-agent

python 爬虫随机获取User-Agent

python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）

爬虫CASE01：反爬策略之使用随机user-agent模拟浏览器的网页爬取

python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用

user-agent

User-Agent 汇总

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)