Python网络数据采集（2）——复杂HTML解析(1) - 代码天地

Python网络数据采集（2）——复杂HTML解析(1)

其他 2018-05-29 16:07:40 阅读次数: 0

一、关于两个重要的函数find()，findAll()的总结
用途：通过find和findAll过滤HTML页面，查找需要的标签或者标签组
函数构造：
findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)
其中：
tag是标签参数，可以传一个标签或多个标签组成的标签列表
attributes是python封装的一个标签的若干属性和对应的属性值

    findAll({"h1", "h2", "h3", "h4"})
    findAll("span", {"class": {"green", "red"}}) 
    #寻找所有class为green和red的span标签

recursive是一个布尔变量，为true时查找标签参数的所有自标签、为false时只查找文档的一级标签。默认情况下是true
text是文本参数，用标签的文本内容去匹配。
nameList = bsObj.findAll(text="something")
limit是范围限制参数，之应用在find函数中。find相当于findAll在limit=1时的情形，limit=x就表示只要求获取前x项结果
keyword是关键词参数，可以选择那些具有指定属性的标签

    allText = bsObj.findAll(id="text")
    print((allText[0]).get_text())

.get_text()会把你正在处理的HTML文档中的所有标签都清除，然后只返回一个只包含文字的字符串。如果你正在处理一个包含许多超链接、段落以及标签的大段源代码，那么get_text()会把这些超链接、段落、以及标签全都清除，剩下不带标签的文字。
通常在你准备打印，存储以及操作数据时，应该在最后再使用.get_text()去提取你想要的文本信息，在一般的情况下，应该尽可能的保留HTML文档的标签的结构。

二、BeautifulSoup的其他对象
BeautifulSoup对象：前面代码示例中的bsObj对象
标签Tag对象：BeautifulSoup对象通过find和findAll，胡哦这直接调用自标签获取的一列对象或单个对象，就像：bsObj.div.h1。
NavigableString对象：表示标签里的文字（不是标签）
Comment对象：用来查找HTML文档的注释标签，如<!–something–>

猜你喜欢

转载自blog.csdn.net/qq_28301007/article/details/79011024

Python网络数据采集（2）——复杂HTML解析(1)

Python网络数据采集（2）——复杂HTML解析（2）

Python网络数据采集——复杂HTML解析

python数据采集2-HTML解析

python 网络数据采集1

.NET Core 网络数据采集 -- 使用AngleSharp做html解析

Python网络数据采集学习笔记1

《python网络数据采集》笔记2

python网络爬虫入门（三、复杂HTML的解析）

Python网络数据采集

Python网络爬虫数据采集实战：网页解析库

Python网络数据采集（1）——获取网页源码

Python网络数据采集（1）：博客访问量统计

python pyquery 解析html数据（2）

Python网络数据采集 PDF

python网络数据采集 Tesseract

python网络数据采集PDF

《python网络数据采集》读后感第三章：开始采集2

1-1 python数据采集-课程介绍 2-1 python开发环境搭建

Python图书之《Python网络数据采集》

2018Python网络爬虫数据采集 Selenium 2框架工具应用 requests网络编程

（数据科学学习手札47）基于Python的网络数据采集实战（2）

python网络数据采集学习笔记

Python网络数据采集----学习心得

python 爬虫/网络数据采集----入门知识

Python网络数据采集 pdf下载

python网络数据采集学习笔记（三）

python网络数据采集笔记（三）

python网络数据采集笔记（一）

python学习之爬虫网络数据采集

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)