爬取西刺代理

其他 2018-12-05 11:38:11 阅读次数: 0

spider：

# -*- coding: utf-8 -*-
import scrapy
from collectip.items import CollectipItem

class XiciSpider(scrapy.Spider):
    name = 'xici'
    allowed_domains = ['xicidaili.com']
    start_urls = ['http://www.xicidaili.com']

    def start_requests(self):
        reqs = []

        for i in range(1,3):
            req = scrapy.Request("http://www.xicidaili.com/nn/%s"%i)
            reqs.append(req)

        return reqs

    def parse(self, response):
        ip_list = response.xpath('//table[@id="ip_list"]')
        print(ip_list)

        trs = ip_list[0].xpath('tr')

        items = []

        for ip in trs[1:]:
            pre_item = CollectipItem()

            pre_item['IP'] = ip.xpath('td[2]/text()')[0].extract()

            pre_item['PORT'] = ip.xpath('td[3]/text()')[0].extract()

            pre_item['POSITION'] = ip.xpath('string(td[4])')[0].extract().strip()

            pre_item['TYPE'] = ip.xpath('td[6]/text()')[0].extract()

            pre_item['SPEED'] = ip.xpath('td[8]/div[@class="bar"]/@title').re('\d{0,2}\.\d{0,}')[0]

            pre_item['LAST_CHECK_TIME'] = ip.xpath('td[10]/text()')[0].extract()

            items.append(pre_item)


        return items

猜你喜欢

转载自www.cnblogs.com/zongdidi/p/10069872.html

爬取西刺代理

爬取西刺代理的免费IP

使用XPath爬取西刺代理

建立自己的IP代理池[爬取西刺代理]

Python四线程爬取西刺代理

西刺代理（用老师ip）爬取

西刺代理用多进程爬取

java爬取西刺ip代理练习

Scrapy爬取西刺代理ip流程

python爬取西刺代理所有数据！

爬虫（三）：爬取西刺高匿代理

python+scrapy 爬取西刺代理ip(一)

Python 爬取西刺可用代理IP，自带检测。

python爬虫西刺代理ip爬取

爬取西刺代理的IP与端口（一）

代理IP爬取和验证（快代理&西刺代理）

Scrapy框架爬取西刺代理网免费高匿代理的实现代码

多线程爬取西刺代理上的所有ip代理信息

2-practice之Python爬取西刺代理页面

爬取西刺代理，并存入mysql数据库

用scrapy爬取有用的免费的西刺代理

Python爬取西刺国内高匿代理ip并验证

爬虫--多线程爬取可以使用的西刺代理ip

Python+scrapy 爬取西刺代理ip！封我ip不存在的！

python3爬虫-通过requests爬取西刺代理

对"西刺免费代理IP"爬取、测试并存入MySQL

爬虫小程序之爬取西刺免费高匿IP构建代理池

爬取西刺代理IP并验证是否可用导出CSV文件

手把手教你使用Python爬取西刺代理数据（下篇）

手把手教你使用Python爬取西刺代理数据（上篇）

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)