使用XPath爬取西刺代理 - 代码天地

使用XPath爬取西刺代理

其他 2020-02-17 21:00:54 阅读次数: 0

因为在Scrapy的使用过程中，提取页面信息使用XPath比较方便，遂成此文。

在b站上看了介绍XPath的：https://www.bilibili.com/video/av30320885?from=search&seid=17721548966745663758

认识XPath

　　1，什么是XPath

　　　　1，解析XML的一种语言（HTML其实是XML的子级），广泛用于解析HTML数据

　　　　2，几乎所有语言都能使用XPath，比如Java和C语言

　　　　3，除了XPath还有其他手段用于XML解析，比如：BeautifulSoup,lxml,DOM,SAX,JSDOM,DOM4J,minixml等

　　2，XPath语法

　　　　XPath语法其实只有3大类

　　　　1，层级：/ 直接子级，//跳级

　　　　2，属性：@ 属性访问

　　　　3，函数：contains()　　text()等

使用XPath

　　1，在浏览器中使用XPath

　　跟在视频里面讲的类似，不过因为我想要爬取西刺代理，所以直接在西刺代理网站上进行分析

　　https://www.xicidaili.com/nn/1

　　

　　简单分析页面之后

　　

　　发现有ip的存在两种，一种是在<tr class="odd">...</tr>里面，另外一种是在<tr class>...</tr>

　　但是都是tr节点（除却第一个之外，因为第一个是）

　　但是tr标签距离根差别很多级，所以我们使用//tr

　　

　　可以看到有101个，100个是ip的个数，还有一个是第一个，就是是蓝色的框。

　　深入分析tr里面

　　

　　里面有几个td节点，ip在第二个td节点，port在第三个td节点，type在第四个td节点，这几个是我们所需要的，同级之下的提取视频里面没有讲，所以我去查了一下，可以使用//tr/td[2]来获取ip

　　

　　可以看到这里是100个搜索结果，即100个ip，同样的方法获取port和type即可

　　2，在Scrapy中使用XPath

　　我们获取到了之后，在scrapy中整理输出第一页的代理ip，在spider爬取页面里写成：

　　

　　可以看到输出了100个IP地址：

　　

　　当然在爬取之前要将scrapy的User-Agent设置好，还有robots.txt协议也要设置，才开始爬取，不然只会获取到空的结果。

　　这个只是第一页的IP地址，验证IP和储存IP，反爬等都还没有处理，剩下的下次另写一篇吧

猜你喜欢

转载自www.cnblogs.com/Cl0ud/p/12322760.html

使用XPath爬取西刺代理

爬取西刺代理

爬取西刺代理的免费IP

建立自己的IP代理池[爬取西刺代理]

Python四线程爬取西刺代理

西刺代理（用老师ip）爬取

西刺代理用多进程爬取

java爬取西刺ip代理练习

Scrapy爬取西刺代理ip流程

爬虫（三）：爬取西刺高匿代理

python爬取西刺代理所有数据！

python+scrapy 爬取西刺代理ip(一)

Python 爬取西刺可用代理IP，自带检测。

python爬虫西刺代理ip爬取

爬取西刺代理的IP与端口（一）

爬虫--多线程爬取可以使用的西刺代理ip

手把手教你使用Python爬取西刺代理数据（上篇）

手把手教你使用Python爬取西刺代理数据（下篇）

代理IP爬取和验证（快代理&西刺代理）

Scrapy框架爬取西刺代理网免费高匿代理的实现代码

多线程爬取西刺代理上的所有ip代理信息

2-practice之Python爬取西刺代理页面

爬取西刺代理，并存入mysql数据库

用scrapy爬取有用的免费的西刺代理

Python爬取西刺国内高匿代理ip并验证

对"西刺免费代理IP"爬取、测试并存入MySQL

Python+scrapy 爬取西刺代理ip！封我ip不存在的！

python3爬虫-通过requests爬取西刺代理

爬虫小程序之爬取西刺免费高匿IP构建代理池

爬取西刺代理IP并验证是否可用导出CSV文件

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)