ip代理抓取 python 练习 - 代码天地

ip代理抓取 python 练习

编程语言 2019-04-27 02:59:49 阅读次数: 0

import requests
from bs4 import BeautifulSoup
# 目标地址和头
# 得到的都是墙外的ip，问题就是要想登录目标地址必须先出去
url = 'https://www.sslproxies.org/'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}

# 获取数据
def get_raw_data(url, headers):
    response = requests.get(url, headers=headers)
    raw_data = response.content.decode()
    return raw_data

# 利用beautifulsoup处理
def bs_data(raw_data):
    soup = BeautifulSoup(raw_data, features='lxml')
    return soup

# 提取IP及其地址信息，返回列表
def bs_extract_ip(soup):
    ip_data = soup.find_all('td', class_='', colspan='')
    ip_list = []

    for i in range(0, 400, 4):
        ip_raw = ip_data[i].contents[0]
        ip_port = ip_data[i+1].contents[0]
        ip_address = ip_data[i+2].contents[0]
        ip_feature = ip_data[i+3].contents[0]
        ip_proxy = '{}:{}'.format(ip_raw, ip_port)
        proxies = "{{'http': 'http://{ip_input}', 'https': 'https://{ip_input}'}} {ip_address}".format(
            ip_input=ip_proxy, ip_address=ip_address)
        ip_list.append(proxies)
    return ip_list


if __name__ == "__main__":
    f = open(r'ip_proxies\ip代理池.txt',
             'w', encoding='utf-8')
    raw_data = get_raw_data(url, headers)

    soup = bs_data(raw_data)
    ip_list = bs_extract_ip(soup)
    for i in ip_list:
        f.write(i)
        f.write('\n')
    f.close()

猜你喜欢

转载自blog.csdn.net/weixin_43977865/article/details/89556521

ip代理抓取 python 练习

python3.6抓取代理ip

Python中抓取代理IP并测试

Python实时抓取最新的代理IP

python爬虫批量抓取ip代理

Python抓取代理IP----用代理采集代理，构建自己的代理IP池

python爬虫抓取,免费高匿快代理 IP

Python爬虫如何使用代理IP进行抓取

python爬虫：批量抓取代理ip，进行验证，抓取豆瓣网站影视信息

每日爬虫练习：多线程代理IP池实战（抓取、清洗）

Python爬虫抓取代理IP并检验可用性,自动设置IE代理

Python爬虫案例50篇-第11篇- 抓取免费代理IP并搭建自己的代理IP池

抓取ip的python脚本

python爬虫之抓取代理服务器IP

python：多线程抓取西刺和快站高匿代理IP

Scrapy实战！Python抓取大众点评数据之代理ip实现

在VPS上使用Python构建稳定高效的IP代理池提升网页抓取技巧

Python练习三:爬虫练习,从一个提供免费代理的网站中爬取IP地址信息

shell脚本练习9———— 抓取主机ip

抓取ip代理

抓取代理IP

python读取文件内的IP信息练习

Python--代理IP

python 代理ip

python使用代理IP

Python(四）IP代理

Python 爬虫IP代理

Python设置IP代理

Python | Firefox IP代理

python爬虫——代理IP

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)