在写python爬虫的时候,为防止对方发现爬虫IP和封停IP,那写爬虫的时候,就要用python去抓取一些代理IP,然后用这些代理IP不停地轮徇地爬取对方数据。在现实使用中,最好要隔段时间就去爬一次代理IP,并添加到代理IP库中,同时把不能使用的IP踢出IP库,每次爬求数据时,从代理IP库中随机(random.choice)获取一个IP。
脚本主要使用到requests模块和Beautiful Soup(bs4 )模块
以下是爬取代理IP的简易脚本:
.
脚本中使用requests模块去请求url,爬取数据
使用re模块写正则匹配IP和端口,这IP和端口,都在HTML td元素中:
re.compile(r'(\d+\.\d+\.\d+\.\d+)')
re.compile(r'(\d+)')
用 bs4 模块去解析HTML数据,拿我们要指定的元素节点中的数据
最后在使用IP时,可以用random.choice随机返回一个IP
re匹配表达式,还要看对方网站的HTML元素是怎么写的,要根据具体情况具体判断