Python 爬虫解析库的使用 --- Beautiful Soup - 代码天地

Python 爬虫解析库的使用 --- Beautiful Soup

其他 2019-03-09 21:54:45 阅读次数: 0

知道了正则表达式的相关用法，但是一旦正则表达式写的有问题，得到的可能就不是我们想要的结果了。而且对于一个网页来说，都有一定的特殊结构和层级关系，而且有很多节点都有id或class来做区分，所以借助它们的结构和属性来提取也可以。

本随笔内容就来介绍一个强大的解析工作Beautiful Soup，它借助网页的结构和属性等特性来解析网页。有了它，我们不用再去写一些复杂的正则表达式，只需要简单的几条语句，就可以完成网页中某个元素的提取。

1、简介

简单来说，Beautiful Soup 就是Pyhon 的一个HTML 或XML 的解析库，可以用它来方便地从网页中提取数据。官方解释如下：

　　Beautiful Soup 提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析分档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

　　Beautiful Soup 自动将输入文档转换为Unicode 编码，输出文档转换为UTF-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时你仅仅需要说明一下原始编码方式就可以了。

　　Beautiful Soup 已成为和lxml、html6lib一样出色的Python解释器，为客户灵活地提供不同的解析策略或强劲的速度。

所以说，利用它可以省去很多繁琐的提取工作，提供了解析效率。

2、准备工作

在开始之前安装好Beautiful Soup 和 lxml

3、解析器

Beautiful Soup 在解析时实际上依赖解析器，它除了支持Python标准库的HTML解析器外，还支持一些第三方解析器，如下图：

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup（markup，“html.parser”）
lxml HTML解析器	BeautifulSoup(markuo,"lxml")
lxml XML解析器	BeautifulSoup(markuo,"xml")
html5lib	BeautifulSoup(markuo,"html5lib")

猜你喜欢

转载自www.cnblogs.com/zhangrenguo/p/10503160.html

Python 爬虫解析库的使用 --- Beautiful Soup

Python爬虫库-Beautiful Soup的使用

Python爬虫入门——Beautiful Soup库的使用

Python爬虫--Beautiful Soup

Python爬虫之Beautiful Soup解析库的使用（五）

Python爬虫之解析库的使用(XPath、Beautiful Soup)

初探Python网络爬虫：Beautiful Soup库

04 Python爬虫之Beautiful Soup库

Python网络爬虫（四）——Beautiful Soup库

Beautiful Soup库 - Python爬虫(二)

python爬虫--03 Beautiful Soup库

（十九）Python爬虫：Beautiful Soup的使用

python3爬虫（二）：解析库之Beautiful Soup

小白学 Python 爬虫（21）：解析库 Beautiful Soup（上）

小白学 Python 爬虫（22）：解析库 Beautiful Soup（下）

Python3爬虫笔记 -- 解析库Beautiful Soup

Python爬虫数据抽取(二)：解析库Beautiful Soup 4

Python 爬虫 ---- Beautiful Soup（一）

Python 爬虫 ---- Beautiful Soup（二）

python3爬虫(6)--使用Beautiful Soup解析数据

【爬虫解析5】Beautiful Soup

Python爬虫学习（二）使用Beautiful Soup库

爬虫之解析库beautiful soup

Python 网络爬虫笔记5 -- Beautiful Soup库实战

Python 网络爬虫笔记3 -- Beautiful Soup库

Python爬虫学习（四）Beautiful Soup库入门

Python爬虫之Beautiful Soup库用法总结

python3爬虫（二）-使用beautiful soup 读取网页

Python3爬虫从零开始：Beautiful Soup的使用

python爬虫系列(3.5-Beautiful Soup的使用)

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)