python爬取快代理IP并测试IP的可用性 - 代码天地

python爬取快代理IP并测试IP的可用性

其他 2021-01-30 10:21:30 阅读次数: 0

用到的网站https://www.kuaidaili.com/，免费的IP很不稳定，随时会挂，有需求的还是购买付费IP比较稳

import requests
from urllib import parse
from bs4 import BeautifulSoup

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}

session=requests.session()
session.headers=headers

# 获取IP地址页面
def getIP(url):
    html=requests.get(url)
    # print(html.status_code)
    # print(html.text)
    if html.status_code==200:
        html.encoding=html.apparent_encoding
        soup=BeautifulSoup(html.text,'lxml')
        trs=soup.select('tbody tr')
        for tr in trs:
            ip=tr.select('td')[0].text
            port=tr.select('td')[1].text
            type=tr.select('td')[3].text
            TestIP(ip,port,type)

# 测试IP代理的可用性，并将可用IP写入文件
def TestIP(ip,port,type):
    url="https://www.baidu.com"
    proxies={
        'http':'{}://{}:{}'.format(type,ip,port),
        'https':'{}://{}:{}'.format(type,ip,port)
    }
    # print(proxies)
    try:
        re=session.get(url,proxies=proxies,timeout=2,verify=False)
        print(re.status_code)
        print("可用IP为{}://{}:{}".format(type,ip,port))
        f.write("{}://{}:{}\n".format(type,ip,port))    # 写入文件
    except:
        print("不可用IP为{}://{}:{}".format(type,ip,port))

if __name__ == '__main__':
    t=input("请输入要爬取的页数，每页15个：")
    url1="https://www.kuaidaili.com/free/intr/"
    with open('IP代理.txt','w') as f:
        for i in range(int(t)):
            url=parse.urljoin(url1,str(i+1))
            print(url)
            getIP(url)

猜你喜欢

转载自blog.csdn.net/KK_2018/article/details/112882517

python爬取快代理IP并测试IP的可用性

爬取快代理的免费IP并测试

Python3 requests爬取代理IP并验证可用性

【爬虫】Python使用requests爬取代理IP并验证可用性

Python实现爬取可用代理IP

Python 爬取西刺可用代理IP，自带检测。

《分享项目_python爬取可用代理ip》

python在ip代理网站爬可用ip

Python爬虫抓取代理IP并检验可用性,自动设置IE代理

scrapy爬取可用的代理ip

代理IP可用性检测小工具IPCheck

【Python3.6爬虫学习记录】（十一）使用代理IP及用多线程测试IP可用性--刷访问量

python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）

Python爬虫免费爬取代理并测试可用性

测试爬取IP是否可用代码

爬取免费代理IP并测试

Python爬虫：爬取免费代理ip

【python爬虫】爬取ip代理池

利用Flask写了一个代理IP提取接口，并附上电影下载站点刷分程序用于测试代理IP可用性

Python自动化测试代理程序可用性

爬虫爬取可用的免費代理IP

Python3爬取西刺代理前2页国内高匿代理IP并验证有效性，若获取失败，使用快代理获取IP存入表格中

爬虫多线程爬取大量代理并且检查可用性

从网站爬取ip，到测试代理ip，到利用代理ip

全网代理IP，IP信息爬取

代理IP爬取之快代理

极简代理IP爬取代码——Python爬取免费代理IP

代理IP爬取和验证（快代理&西刺代理）

爬虫代理设置--爬取ip池、验证ip是否可用、验证代理ip是否能用

爬取快代理免费ip，构建自己的代理ip池，不再怕反爬（附代码）松鼠爱吃饼干

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)