极简代理IP爬取代码——Python爬取免费代理IP - 代码天地

极简代理IP爬取代码——Python爬取免费代理IP

其他 2019-06-26 14:18:19 阅读次数: 0

这两日又捡起了许久不碰的爬虫知识，原因是亲友在朋友圈拉人投票，点进去一看发现不用登陆或注册，觉得并不复杂，就一时技痒搞一搞，看看自己的知识都忘到啥样了。

分析一看，其实就是个post请求，需要的信息都在网页中，唯一的问题就是网站做了IP限制，一个IP只能投一票。

在GitHub上看到了star最高的代理IP池项目，但是由于大佬爬取的代理没有区分http和https，所以使用起来可用率就进一步降低了。

大概看了一下大家经常爬取代理ip的网址，有一个是专门列出的HTTP类型的代理，稍微分析了一下页面，靠着自己快忘完了的知识，写了一个极简的爬取方案。代码如下：

import requests
from bs4 import BeautifulSoup

def proxy_list():
    url = 'https://www.xicidaili.com/wt'
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}
    r = requests.get(url = url,headers = headers)
    s = BeautifulSoup(r.text,'lxml')
    tr_list = s.select('tr[class="odd"]')
    proxy_list = []
    for tr in tr_list:
        ip = tr.select('td')[1].text
        potal = tr.select('td')[2].text
        proxy_list.append('http://'+ip+':'+potal)
    return proxy_list

该网站只做了ua限制，不加ua是会503的，加上ua即可。当然爬取下来的也不是都可以使用，需要做进一步验证才行。

分页功能就不用多说了，较为简单，可以自行DIY。不得不说，requests+BeautifulSoup真好用，入门必备。

猜你喜欢

转载自www.cnblogs.com/mathbox/p/11089424.html

极简代理IP爬取代码——Python爬取免费代理IP

爬取免费代理IP代码

python爬取代理ip

Python爬虫：爬取免费代理ip

爬取代理IP

【代码整理】python--爬取免费代理IP-构建代理IP池

Python爬虫实战：爬取代理IP

python爬虫爬取代理ip

python爬取代理IP地址

爬取西刺代理的免费IP

golang爬取免费代理IP

爬取快代理的免费IP并测试

爬取免费代理IP并测试

爬取免费代理上网/组建IP代理池

Python实现爬取可用代理IP

【python爬虫】爬取ip代理池

爬取快代理免费ip，构建自己的代理ip池，不再怕反爬（附代码）松鼠爱吃饼干

Java：爬取代理ip，并使用代理IP刷uv

自动爬取代理IP例子

PYTHON爬虫代理如何设置？用免费IP或IP池和REQUEST库爬取网页

原创:Python爬虫实战之爬取代理ip

Python爬虫简单运用爬取代理IP

【爬虫笔记】Python爬虫简单运用爬取代理IP

爬取某代理网站代理IP

全网代理IP，IP信息爬取

python爬取免费代理

bs+selenium +python 爬取免费代理IP 储存在mongo

python在ip代理网站爬可用ip

scrapy爬取可用的代理ip

python爬虫十二：爬取快速ip代理，攻破503

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)