Python--代理IP - 代码天地

Python--代理IP

其他 2018-05-14 11:24:15 阅读次数: 2

前言：

当你需要在同一个网站爬取大量信息的时候，通常你会遇到各种各种各样的阻挠，其中一种就是IP被封，这时代理IP就成了我们不二的选择，我们下面的IP来源于http://www.xicidaili.com/

代码：

# IP地址取自国内髙匿代理IP网站：http://www.xicidaili.com/nn/  
  
from bs4 import BeautifulSoup  
import requests  
import random  
  
#功能：爬取IP存入ip_list列表  
def get_ip_list(url, headers):  
    web_data = requests.get(url, headers=headers)  
    soup = BeautifulSoup(web_data.text, 'lxml')  
    ips = soup.find_all('tr')  
    ip_list = []  
    for i in range(1, len(ips)):  
        ip_info = ips[i]  
        tds = ip_info.find_all('td')  
        if not tds[8].text.find('天')==-1:  
            print('tds[8]为：'+str(tds[8]))  
            ip_list.append(tds[1].text + ':' + tds[2].text)  
            print(tds[1].text + ':' + tds[2].text)  
    return ip_list  
  
#功能：1,将ip_list中的IP写入IP.txt文件中  
#      2,获取随机IP，并将随机IP返回  
def get_random_ip(ip_list):  
    proxy_list = []  
    for ip in ip_list:  
        proxy_list.append('http://' + ip)  
        f=open('IP.txt','a+',encoding='utf-8')  
        f.write('http://' + ip)  
        f.write('\n')  
        f.close()  
    proxy_ip = random.choice(proxy_list)  
    proxies = {'http': proxy_ip}  
    return proxies  
  
if __name__ == '__main__':    
    for i in range(1,40):
        url = 'http://www.xicidaili.com/wt/{}'.format(i) 
        headers = {  
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'  
        }  
        ip_list = get_ip_list(url, headers=headers)  
        proxies = get_random_ip(ip_list)  
        print(proxies)

需要注意的一点是proxies的格式是一个字典：{‘http’: ‘http://42.84.226.65:8888‘}

猜你喜欢

转载自blog.csdn.net/qq_38251616/article/details/79544753

Python--代理IP

【代码整理】python--爬取免费代理IP-构建代理IP池

遇到问题--python--爬虫--使用代理ip第二次获取代理ip失败

python 代理ip

python使用代理IP

Python(四）IP代理

Python 爬虫IP代理

Python设置IP代理

Python | Firefox IP代理

python爬虫——代理IP

Python 之代理IP代理池

python在ip代理网站爬可用ip

python - 获取代理IP

Python爬虫——使用代理IP

python获取ip代理池

python建立IP代理池

利用Python使用代理IP

python-获得代理ip

Python爬虫代理IP池

ip代理抓取 python 练习

Python爬虫使用代理IP

python爬取代理ip

python 爬虫ip代理池

python爬虫中代理ip

Python爬虫IP代理教程（reuqests和selenium的ip代理）

Python抓取代理IP----用代理采集代理，构建自己的代理IP池

【Python脚本】-Python查找可用代理IP

python 单例模式获取IP代理

python 爬虫获取代理Ip

Python爬虫实战：爬取代理IP

今日推荐

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

开源王者！全球最强的开源大模型Llama3发布！15万亿数据集训练，最高4000亿参数，数学评测超过GPT-4，全球第二！

为欧拉系统安装可视化界面(deepin）

MobaXterm中文版（MobaXterm-Chinese-Simplified）安装和使用

JS 网页全自动翻译 v3.4 发布，开放对 html 文件的翻译能力

这是Linus最忍不了的一集——虚幻引擎代码规范禁止使用脏话、禁止slave、master

与 Apollo 共创生态：观看7周年大会的心路历程

与 Apollo 共创生态：Apollo7周年大会的心得体会，干货满满

国内各种免费AI聊天机器人(ChatGPT)推荐(上)

周排行

php 截取字符串长度并把超出规定长度的内容用...替代

生成3x3矩阵（2）：FIFO法的分析和改进

PyTorch Hub发布！一行代码调用所有模型：torch.hub

Unity中添加不规则图片按钮，只有在点击到图片后才触发点击效果

AI - TensorFlow - 示例01：基本分类

Andy's First Dictionary（UVA - 10815 ）集合set

IOS下Nil & nil & NULL 区别

swift 封装按钮倒计时

C. Maximum Median 二分

LSTM神经网络输入输出究竟是怎样的？

每日归档

更多

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)