[爬虫]一个易用的IP代理池

其他 2019-12-17 14:34:08 阅读次数: 0

一个易用的IP代理池 - stand

写爬虫时常常会遇到各种反爬虫手段, 封 IP 就是比较常见的反爬策略

遇到这种情况就需要用到代理 IP, 好用的代理通常需要花钱买, 而免费的代理经常容易失效, 所以就需要自己搭建 IP 代理池, 来获取免费高效的代理 IP. 下面介绍一个自己写的 IP 代理池, 欢迎 star

lin-zone/stand

安装

pip install stand

启动

stand

启动后, 爬虫会从代理网站抓取 IP, 并将数据保存在名为 stand.db 的 SQLite 数据库中, 等待爬虫抓取一定数量 IP 后, 即可使用代理

使用

>>> from stand import get_proxy
>>> proxy = get_proxy()
>>> print(proxy)
'103.133.222.151:8080'

在 Scrapy 中使用 stand 作为代理

import scrapy
from scrapy.crawler import CrawlerProcess


class TestSpider(scrapy.Spider):
    name = 'test'
    start_urls = ['https://api.ip.sb/ip']

    def parse(self, response):
        print(response.meta['proxy'])
        print(response.text)


DOWNLOADER_MIDDLEWARES = {
    'stand.UserAgentMiddleware': 543,
    'stand.ProxyMiddleware': 600,
}
settings = dict(
    LOG_ENABLED=False,
    DOWNLOAD_TIMEOUT=30,
    DOWNLOADER_MIDDLEWARES=DOWNLOADER_MIDDLEWARES,
)


def run():
    process = CrawlerProcess(settings)
    process.crawl(TestSpider)
    process.start()


if __name__ == "__main__":
    run()

项目说明

当启动 stand 时, 首先会运行 crawl 函数从代理网站爬取代理 IP, 并将爬取到的结果存储在名为 stand.db (可通过 STAND_DIR 环境变量设置保存目录) 的 SQLite 数据库中, 每个 IP 有一个初始分数 2
然后会运行 validate 函数验证代理 IP 的有效性, 验证通过分数设置为最高值 3, 验证失败分数减 1, 当分数为 0 时删除该 IP
之后会定时运行 crawl 和 validate 函数分别爬取和验证 IP, 每20分钟爬取一次 IP, 每60分钟验证一次 IP

猜你喜欢

转载自www.cnblogs.com/lin-zone/p/12054288.html

[爬虫]一个易用的IP代理池

构建一个给爬虫使用的代理IP池

[爬虫架构] 如何在分布式爬虫架构中动态维护一个代理IP池（付费代理）

如何用爬虫搭建一个免费的IP代理池

搭建一个自己的百万级爬虫代理ip池.

爬虫福音：Github星标14K+，一个开源的IP代理池

为反反爬虫，打造一个自己的IP池？Python获取西刺代理IP并验证！

一个方便易用的爬虫框架

如何维护一个1000 IP的免费代理池

C#——做一个简单代理IP池

如何构建一个自己的代理ip池

实现一个免费的IP代理池

爬虫代理IP池

【Python爬虫实例学习篇】——6、获取免费IP代理进阶: 在服务器上部署一个高可用代理池（1）

【Python爬虫实例学习篇】——7、获取免费IP代理进阶: 在服务器上部署一个高可用代理池（2）

听说你玩爬虫爬妹子时老被封ip？教你搭建一个ip代理池！想爬就爬

Unity实现一个简单易用的对象池

从ip代理池ProxyPool中获取一个可以ip

爬虫代理IP池的实现

建立爬虫代理ip池

Python爬虫代理IP池

python 爬虫ip代理池

【Python】打造简单易用的扫描IP代理池

python爬虫设置代理ip池——方法（一）

写一个scrapy中间件--ip代理池

利用xxx和xxx维护一个通用爬虫代理池

小白学 Python 爬虫（31）：自己构建一个简单的代理池

爬虫第一步！就是搭建代理池！不然一封你IP！你还爬个锤子！

写Python爬虫又被屏蔽了，你现在需要一个稳定的代理IP

一个简单的ip池的搭建

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)