如何反反爬虫 - 代码天地

如何反反爬虫

其他 2024-04-06 18:09:20 阅读次数: 0

我们来讲最常见的反反爬虫方法

import requests
r =requests.get('网页网址')
print(r.requests.headers)

一.使用简单的方法把请求头改为真的浏览器模式

import requests
link='网页地址'
heraders={'User-Agent':''}
r=requests.get(link,headers=headers)
print(r.requsts.headers)

我们可以使用python的fake-uesragent，可以容易的切换User-Agent

pip install fake-uesragent

from fake_useragent import UserAgent 
import requests

link=''
ua=UserAgent()
hearders={'User-Agent':''}
response=requests.grt(url=url,headers=headers)

print(response.status_code)
print(r.request.headers)

这里可以使用ua.random实现随机变换headers。每次生成的伪装表名不一样。我们还需要在headers里面写上Host和Referer

二.我们爬取的时候应该设置一段的时间限制：

import time 
t1=time.time()
time.sleep(2）
t2=time.time()
total_time=t2-t1
print(total_time)

我们的时间应该不能确定为一个固定的值，我们现在可以加入random模块来实现时间的随机性。

import random
import time

sleep_time=random.randint(0,2)+random.random
print(sleep_time)
time.sleep(sleep_time)

现在我们可以把爬虫和时间间隔结合在一起了：

import requests
from bs4 import BeautifulSoup
import time
import random

link=''

def scrap(link):
    headers={'User-Agent':''}
    r=requests.get(link,headers=headers)
    heml=r.text
    soup=BeautifulSoup(html,"ixml")
    return soup
soup=scrap(link)
title_list=soup.find_all("h1",class_="post-title")
for eachone in title_list:
    url=eachone.a['href']
    print('开始爬取：',url)
    soup_art=scrap(url)
    title=soup_art.find("h1",class_="view-title").text.strip()
    print('标题：',title)
    sleep_time=random.randint(0,2)+random.random()
    print('开始休息：',sleep_time,'秒')
    time.sleep(sleep_time)

我们可以把爬取的放入文件里面

猜你喜欢

转载自blog.csdn.net/eqwaak0/article/details/137239819

如何反反爬虫

scrapy反反爬虫

爬虫进阶：反反爬虫技巧

爬虫进阶：反反爬虫技巧！

爬虫，反爬虫和反反爬虫

反反爬虫相关机制

反反爬虫绕过无限debugger

网站如何识别你是 selenium爬虫？那我们怎么解决（反反爬）

scrapy爬虫之反反爬虫措施

今天说说反爬虫与反反爬虫

反反爬虫--破解字体加密

（反反爬虫）携程酒店的eleven

Downloader Middlewares反反爬虫【学习笔记04】

python反反爬虫系列一（文本混淆）

爬虫反反爬学习资料整理

【爬虫】之反爬与反反爬

Python爬虫之路-反爬与反反爬

python爬虫之反爬虫与反反爬虫持续更新

简析爬虫、反爬虫、反反爬虫之间的抗衡

详解爬虫策略，反爬虫策略，反反爬爬虫策略

day067 mongoDB_advance&反爬虫&反反爬虫

Scrapy学习笔记(6)-反爬虫与反反爬虫策略

爬虫进阶：反反爬虫技术--3 设置合理的cookie

爬虫进阶：反反爬虫技术--2 使用可变IP

爬虫进阶：反反爬虫技术--5 网页隐藏信息

爬虫进阶:反反爬虫技术--5 网页隐藏信息

Python进阶 │反爬虫和怎样反反爬虫

scrapy反反爬虫策略和settings配置解析

【Python爬虫】 scrapy框架添加IP代理池反反爬

python 反反爬虫策略之js动态加密url破解

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

timesten性能问题分析

hdu1017A Mathematical Curiosity

利用FragmentTabHost和ViewPager来实现可滑动切换的页面

哪里找卖百度云资源

大数据技能图谱

PHP设计模式（5）—— 观察者模式

python list删除元素是要注意的坑点

TPM简介

并查集擒贼先擒王//解密犯罪团伙

码农也要修身

每日归档

更多

2024-06-04(10)

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)