python爬虫:爬取代理IP(requests+Beautiful Soup)教程

在写python爬虫的时候,为防止对方发现爬虫IP和封停IP,那写爬虫的时候,就要用python去抓取一些代理IP,然后用这些代理IP不停地轮徇地爬取对方数据。在现实使用中,最好要隔段时间就去爬一次代理IP,并添加到代理IP库中,同时把不能使用的IP踢出IP库,每次爬求数据时,从代理IP库中随机(random.choice)获取一个IP。

脚本主要使用到requests模块和Beautiful Soup(bs4 )模块

以下是爬取代理IP的简易脚本:

.

脚本中使用requests模块去请求url,爬取数据

使用re模块写正则匹配IP和端口,这IP和端口,都在HTML td元素中:

re.compile(r'(\d+\.\d+\.\d+\.\d+)')

re.compile(r'(\d+)')

用 bs4 模块去解析HTML数据,拿我们要指定的元素节点中的数据

最后在使用IP时,可以用random.choice随机返回一个IP

re匹配表达式,还要看对方网站的HTML元素是怎么写的,要根据具体情况具体判断

猜你喜欢

转载自blog.csdn.net/qq_40925239/article/details/88551677