Python爬虫数据提取方式——使用PyQuery查找元素 - 代码天地

Python爬虫数据提取方式——使用PyQuery查找元素

其他 2018-07-04 03:10:59 阅读次数: 0

html = """
    <div id='content'>
        <ul class='list'>
            <li class='one'>One</li>
            <li class='two'>Two</li>
            <li class='three'>Three</li>
            <li class='four'>Four</li>
            <div id='inner'>
                <a href='http://www.baidu.com'>百度一下</a>
                <p>第一段</p>
                <p>第2段</p>
                <p>第3段</p>
                <p>
                    第4段
                    <span>法大师傅大师傅</span>
                </p>
                <p>第5段</p>
                <p>第6段</p>
            </div>
        </ul>
    </div>
"""

pyquery：仿照jquery语法，封装的一个包，和bs4有点类似。

首先：利用PyQuery类，对Html这个文档进行序列化，结果是一个文档对象

doc_obj = PyQuery(html)
print(doc_obj)

接下来：开始查找元素的方法

从doc_obj这个对象中根据类名匹配元素


   ul = doc_obj('.list') 

   # ul是一个对象
   print(ul) 
   print(type(ul)

#从ul中查找a
print(ul('a'))

当前元素对象.find(): 在当前对象中查找后代元素

当前元素对象.chrildren(): 在当前对象中查找直接子元素

print(ul.find('a'))

父元素查找

parent(): 直接父元素

parents(): 所有的父元素

a = ul('a')
print(a.parent('#inner'))

兄弟元素的查找

li = doc_obj('.one')
print(li.siblings())
print(li.siblings('.two'))

获取标签的属性或文本（遍历元素）

ul = doc_obj('.list')

# generator object
 res = ul('li').items()
 for li in res:
     print(li)
     # 获取标签对象的文本内容
     print(li.text())
     # 获取标签属性
     print(li.attr('class'))

获取标签下文本内容

inner_div = doc_obj('#inner')
p = inner_div('p')
print(p.text())

猜你喜欢

转载自blog.csdn.net/qq_33472765/article/details/80840192

Python爬虫数据提取方式——使用PyQuery查找元素

python爬虫学习笔记(十一)-数据提取之PyQuery的使用

（廿）Python爬虫：pyquery的使用

Python爬虫之pyquery获取不到元素

数据爬虫（六）：爬虫PyQuery基本使用

Python爬虫数据提取方式——使用bs4提取数据

爬虫pyquery查找节点

pyquery详细用法 python爬虫之PyQuery的基本使用

数据之路 - Python爬虫 - PyQuery库

Python爬虫数据抽取(三)：pyquery库

Python使用PyQuery解析网页元素

python爬虫神器PyQuery的使用方法

自学python爬虫（六）PyQuery使用

Python-爬虫-解析库（pyquery）的使用

Python 爬虫：PyQuery 库的介绍与使用

python之爬虫（九）PyQuery库的使用

python爬虫学习——解析库pyquery的使用

python爬虫之PyQuery的基本使用

Python爬虫数据提取方式——-selenium爬虫框架中的数据提取方式

Python爬虫-PyQuery

Python爬虫——PyQuery库

python爬虫-PyQuery详解

Python——爬虫——数据提取

【Python】爬虫数据提取

python3爬虫(7)--使用pyquery的CSS选择器（Selectors）解析数据

Python爬虫数据提取方式——cssselector样式选择器

python爬虫的几种数据解析提取方式

python数据提取方式

爬虫实战-酷狗音乐数据抓取--XPath，Pyquery,Beautifulsoup数据提取对比实战

Python3爬虫（七）解析库的使用之pyquery

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)