代理ip池的建立 - 代码天地

代理ip池的建立

其他 2019-02-21 02:01:08 阅读次数: 0

国内免费的代理ip地址，http://www.xicidaili.com/nn/

源代码如下：

import urllib2

from bs4 import BeautifulSoup

import csv

def IPspider(numpage):

csvfile = file('ips.csv', 'wb')

writer = csv.writer(csvfile)

url='http://www.xicidaili.com/nn/'

user_agent='IP'

headers={'User-agent':user_agent}

for num in xrange(1,numpage+1):

ipurl=url+str(num)

print 'Now downloading the '+str(num*100)+' ips'

request=urllib2.Request(ipurl,headers=headers)

content=urllib2.urlopen(request).read()

bs=BeautifulSoup(content,'html.parser')

res=bs.find_all('tr')

for item in res:

try:

temp=[]

tds=item.find_all('td')

temp.append(tds[1].text.encode('utf-8'))

temp.append(tds[2].text.encode('utf-8'))

writer.writerow(temp)

except IndexError:

pass

IPspider(10)

这样就爬到了1000个代理IP和端口，并不是所有的代理IP都可以用，需要检查一下哪些IP是可以使用的。连上代理后能不能在2秒内打开百度的页面，如果可以，则认为IP可用，添加到一个list里供后面备用，实现代码如下。

import socket

def IPpool():

socket.setdefaulttimeout(2)

reader=csv.reader(open('ips.csv'))

IPpool=[]

for row in reader:

proxy=row[0]+':'+row[1]

proxy_handler=urllib2.ProxyHandler({"http":proxy})

opener=urllib2.build_opener(proxy_handler)

urllib2.install_opener(opener)

try:

html=urllib2.urlopen('http://www.baidu.com')

IPpool.append([row[0],row[1]])

except Exception,e:

continue

return IPpool

猜你喜欢

转载自blog.csdn.net/qq_31032181/article/details/79164851

代理ip池的建立

python建立IP代理池

建立爬虫代理ip池

python爬虫-代理ip池建立

如何建立爬虫代理ip池

爬虫（二）建立代理ip池

实战1：建立代理IP池

Python爬虫——建立IP代理池

建立自己的IP代理池[爬取西刺代理]

【python3】如何建立爬虫代理ip池

python爬虫-python之爬虫的代理ip池建立

建立IP代理池存入MongoDB数据库

从零教你建立爬虫代理ip池

建立自己的ip池

免费代理IP池

构建ip代理池

代理池IP

scrapy IP代理池

IP代理池

搭建代理ip池

爬虫代理IP池

免费ip代理池

利用scrapy建立代理池

建立自己的小型代理池

自己设计代理IP池

搭建ip代理池思想

多线程代理IP池

Scrapy使用IP代理池

构建自己的IP代理池

python获取ip代理池

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)