【爬虫】抓取xicidaili可用代理ip - 代码天地

【爬虫】抓取xicidaili可用代理ip

其他 2019-09-16 16:44:32 阅读次数: 0

# coding=utf-8
import requests
from lxml import etree
ips=[]
def run(page):
    url="https://www.xicidaili.com/nn/{}"
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36,PostmanRuntime/7.16.3",
        'Accept': "*/*",
        'Cache-Control': "no-cache",
        'Postman-Token': "e17c0361-c140-4e67-b4d7-1d4297b6876d,2da41bb3-79f5-40fd-a5a7-63c0acbd4442",
        'Host': "www.xicidaili.com",
        'Accept-Encoding': "gzip, deflate",
        'Cookie': "_free_proxy_session=BAh7B0kiD3Nlc3Npb25faWQGOgZFVEkiJWYyNTA3YjBmOWFjNDAxOWJhYWEzNDg4YWQ0OTU5ZjYyBjsAVEkiEF9jc3JmX3Rva2VuBjsARkkiMUkxQnBlMzlsNmR3bExnWHltNklaWjFIdDJyNkdiVzE0cXUwR094TlErczQ9BjsARg%3D%3D--108c1be9a4e23604bde585654cfee79143f53fb6",
        'cache-control': "no-cache"
    }
    r=requests.get(url.format(page),headers=headers)

    selector=etree.HTML(r.text)
    info_list=selector.xpath('//table[@id="ip_list"]//tr')
    # print(info_list)
    info_list=info_list[1:]
    for info in info_list:
        ip=''.join(info.xpath('./td[2]/text()'))
        port=''.join(info.xpath('./td[3]/text()'))
        protocol=''.join(info.xpath('./td[6]/text()'))
        ips.append(protocol+"://"+ip+":"+port)
    print(ips)

#存储到txt文件
def write_to_txt(lists):
    with open('ips.txt','w',encoding='utf-8') as f:
        f.write("\n".join(lists))


if __name__=="__main__":
    for i in range(1,5):
        print("==================同步第{}页=====================".format(i))
        run(i)
    write_to_txt(ips)
    print(len(ips))

猜你喜欢

转载自www.cnblogs.com/winstonsias/p/11528021.html

【爬虫】抓取xicidaili可用代理ip

Python爬虫抓取代理IP并检验可用性,自动设置IE代理

python爬虫批量抓取ip代理

代理IP让网络爬虫更快速抓取数据

python爬虫抓取,免费高匿快代理 IP

爬虫抓取数据时显示超时，是代理IP质量不行？

Python爬虫如何使用代理IP进行抓取

抓取ip代理

抓取代理IP

2018.8.12测试可用ip代理(Python爬虫)

爬虫爬取可用的免費代理IP

python爬虫：批量抓取代理ip，进行验证，抓取豆瓣网站影视信息

python爬虫之反爬虫（随机user-agent，获取代理ip，检测代理ip可用性）

ip代理抓取 python 练习

Python爬虫案例50篇-第11篇- 抓取免费代理IP并搭建自己的代理IP池

爬虫代理设置--爬取ip池、验证ip是否可用、验证代理ip是否能用

python爬虫之抓取代理服务器IP

每日爬虫练习：多线程代理IP池实战（抓取、清洗）

如何使用爬虫代理ip池抓取数据更有效？

爬虫-ip代理

爬虫-设置代理ip

爬虫代理IP

Python 爬虫IP代理

爬虫代理IP

爬虫代理IP池

爬虫ip代理

爬虫代理IP设置

爬虫伪装代理IP

python爬虫——代理IP

【爬虫】Python使用requests爬取代理IP并验证可用性

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)