爬虫好搭档之parsel - 代码天地

爬虫好搭档之parsel

其他 2018-08-18 11:46:07 阅读次数: 0

parsel 是scrapy 出品的，也是scrapy内置的选择器包含re、css、xpath选择器,依赖lxml,比起bs4好用的不要不要的。
用过scrapy，再用它，其实都是一样的，scrapy团队把它单独出来了个库，这样可以单独使用，不必使用scrapy
1. 安装:
pip install parsel or easy_install parsel
2. 结合requests

from parsel import Selector
import requests

url = "https://news.baidu.com/"
body = requests.get(url).text
selector = Selector(text=body)

简单例子开始:

3.xpath:

title = selector.xpath("//title/text()").extract_first()
# 返回list 把所有匹配的值都返回
#title = selector.xpath("//title/text()").extract()[0]
print title
# 百度新闻——全球最大的中文新闻平台

4.正则re:

#默认是返回list
title = selector.re("<title>(\S+)</title>")[0]
print title
# 百度新闻——全球最大的中文新闻平台

5.css:

title = selector.css("title::text").extract_first()
print title
# 百度新闻——全球最大的中文新闻平台

6.re和xpath结合:

title = selector.xpath("//title/text()").re("(\S\S)")[0]
print title
# 百度

7.css+re:

title = selector.css("title::text").re("(\S\S)")[0]
print title
# 百度

8.其他:
做遍历:

for p in divs.xpath('.//p')
...     print p.extract()

更多发现请详细查看官方文档: 链接

猜你喜欢

转载自blog.csdn.net/jianmoumou233/article/details/80244035

爬虫好搭档之parsel

爬虫好搭档之 w3lib

setTimeout的好搭档“0”

Jmeter的好搭档Badboy录制参数化

树莓派的C语言开发好搭档WiringPi库

Jmeter 的好搭档Badboy添加检查点

Python 编程的最好搭档—VSCode 详细指南

安全好用的快充头，iPhone 13的好搭档，RAVPOWER 20W充电器上手

亚马逊云科技--《容器入门》学习笔记|从现实世界走进虚拟世界//容器何以与微服务成为「好搭档」

华为P60 Pro双向北斗卫星消息，有回复更安心，户外探险好搭档！

Python内使用parsel之css选择器

parsel库

Python爬虫：scrapy内置网页解析库parsel-通过css和xpath解析xml、html

【Python自学笔记】Python爬虫＞页面数据提取模块parsel（支持xpath css re）

爬虫的“黄金搭档”---requests库的详细介绍

Python爬虫实战，requests+parsel模块，爬取二手房房源信息数据

XPath 与 CSS （parsel）

squareline搭档OneOS图形组件之可视化GUI开发

【爬虫】之爬虫概述

爬虫之爬虫概述

我的搭档我的团

爬虫与反爬之-爬虫

爬虫之scrapy网络爬虫

爬虫之反爬虫技术

urllib库中的urllib.parsel解析模块使用

ViewPager与Fragment搭档使用代码

Scrum的最佳搭档是什么？

结对编程-搭档代码分析

爬虫之MongoDB的使用

Puppeteer之爬虫入门

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)