爬虫爬取可用的免費代理IP - 代码天地

爬虫爬取可用的免費代理IP

其他 2020-02-11 10:25:00 阅读次数: 0

需要用的工具

pycharm，python3.7，selenium库，request库，os文件库，re模块的正则表达式运用，自行下载chromedriver自测软件

代碼如下

具體的描述代碼可以看

from selenium import webdriver # 从selenium导入webdriver
from selenium.webdriver.chrome.options import Options
import requests
import re
from bs4 import BeautifulSoup
# 获取免费的代理并验证代理的可用性
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

#获取代理ip网站的代理ip
def get_free_proxy():
    url = 'https://www.xicidaili.com/nn/'
    response = requests.get(url, headers=headers)
    html_ele = etree.HTML(response.content)
    tr_eles = html_ele.xpath('//table[@id="ip_list"]//tr')
    tr_eles.pop(0)
    for tr_ele in tr_eles:
        ip_str = tr_ele.xpath('./td[2]/text()')[0]
        port = tr_ele.xpath('./td[3]/text()')[0]
        yield ip_str + ':' + port

#验证代理ip的可用性
def validate_proxy(proxy_str):
    url = 'https://www.baidu.com'
    proxy = {
        'http': 'http://' + proxy_str,
        'https': 'http://'+proxy_str
    }
    try:
        response = requests.get(url, proxies=proxy, timeout=2)
        if response.status_code == 200:
            return True
    except:
        return False
if __name__ == '__main__':
    for item in get_free_proxy():
        if validate_proxy(item):
            print('可用的代理IP:')
            print(item)

浮沉如妳。

发布了11 篇原创文章 · 获赞 307 · 访问量 6759

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43853097/article/details/103946657

爬虫爬取可用的免費代理IP

scrapy爬取可用的代理ip

Python实现爬取可用代理IP

《爬虫》爬取可用的免费IP

爬虫代理设置--爬取ip池、验证ip是否可用、验证代理ip是否能用

Python爬虫：爬取免费代理ip

【python爬虫】爬取ip代理池

Python 爬取西刺可用代理IP，自带检测。

《分享项目_python爬取可用代理ip》

python爬虫十二：爬取快速ip代理，攻破503

C#攻克反爬虫之代理IP爬取

python爬虫西刺代理ip爬取

爬虫篇——代理IP爬取备用及存储

如何用爬虫代理ip爬取商品价格？

Python爬虫-IP隐藏技术与代理爬取

python爬取快代理IP并测试IP的可用性

python在ip代理网站爬可用ip

python爬虫创建代理池，爬取5000个代理IP并进行验证！

Python爬虫新手入门教学（十九）：爬取ip代理，构建代理池

爬取某代理网站代理IP

PYTHON爬虫代理如何设置？用免费IP或IP池和REQUEST库爬取网页

全网代理IP，IP信息爬取

【python3爬虫系列】问题一：去西刺爬取免费可用的代理（用requests爬取）

爬取西刺代理IP并验证是否可用导出CSV文件

爬虫多线程爬取大量代理并且检查可用性

【爬虫】Python使用requests爬取代理IP并验证可用性

测试爬取IP是否可用代码

PHP简单爬虫爬取免费代理ip 一万条

python3+Scrapy爬虫实战（三） —— 使用代理IP，爬取“去哪儿”景点信息

爬虫--多线程爬取可以使用的西刺代理ip

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)