从实例入手学会BeautifulSoup的常用方法

其他 2019-02-22 14:51:18 阅读次数: 0

场景

Beautiful Soup是一个强大的解析工具，它能根据网页的结构和属性等来解析网页。

实现

导入库

from bs4 import BeautifulSoup as BS

解析器

BeautifulSoup在解析时实际上依赖解析器，它除了支持Prthon标准库中的HTML解析器之外，还支持一些第三方解析器，比如lxml。

Beautiful Soup支持的解析器

1.Python标准库

BeautifulSoup(markup, “html.parser”)

Python的内置标准库、执行速度适中、文档容错能力强

Python 2.7.3及Python 3.2.2之前的版本文档容错能力差

2.xml HTML解析器

BeautifulSoup(markup, “lxml”)

速度快、文档容错能力强需要安装C语言库

3.lxml

XML解析器

BeautifulSoup(markup, “xml”)

速度快、唯一支持XML的解析器需要安装C语言库

4.html5lib

 BeautifulSoup(markup, “html5lib”)

最好的容错性、以浏览器的方式解析文档、生成HTML5格式的文档速度慢、不依赖外部扩展

lxml使用

比如这里我们使用lxml:

soup = BS(text,'lxml')

这里BS是BeautifulSoup的别名，因为前面我们已经：

from bs4 import BeautifulSoup as BS

获取匹配的第一个标签

find方法可以获取匹配的第一个标签

以爬取情话为例

网址：

https://www.duanwenxue.com/huayu/tianyanmiyu/list_69.html

打开F12进行检查，发现

情话内容在第一个class为list-short-article的div里面，所以我们可以这样使用

soup = BS(text,'lxml')
        arttis = soup.find('div', class_='list-short-article')

获取匹配的所有标签

可以使用find_all方法

比如这里的情话内容都在a标签里，且其target属性为blank

所以我们可以这样获取：

soup = BS(text,'lxml')
        arttis = soup.find('div', class_='list-short-article').find_all('a', {'target': "_blank"})

更多方法

更所方法使用请参照BeautifulSoup文档

https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

猜你喜欢

转载自blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/87344517

从实例入手学会BeautifulSoup的常用方法

从实例入手Shiro并实现HellloWorld

从实例入手学习Shiro的会话机制

从实例入手学习Shiro与Web的整合

Redis事务中的watch机制-从实例入手学习

深入浅出学习Hibernate框架（一）：从实例入手初识Hibernate框架

从实例入手学习Vue-router的使用-实现音乐导航菜单切换

从实例入手学习Shiro自定义Realm实现查询数据进行验证

从实例入手java8时间和日期类

Android布局管理器-从实例入手学习相对布局管理器的使用

Dubbo与SpringBoot整合流程(从实例入手，附代码下载)

[源码分析] 从实例和源码入手看 Flink 之广播 Broadcast

从实例入手学习使用vue+axios配置代理进行跨域访问百度音乐API

CMake 入门实战，从实例入手，讲解 CMake 的常见用法，例如aux_source_directory的用法

Robei实例入手

从实现react入手理解其源码（简版）

从实现自己的useState入手理解React常见hooks源码

BeautifulSoup 库常用方法详解

前端日常：常用JavaScript代码入手。

Python爬虫beautifulsoup4常用的解析方法总结（新手必看）

BeautifulSoup实例

实例入手vue-router重定向

SQL注入手工注入常用的语句

入手manjaro的一些常用快捷键

Python爬虫beautifulsoup4常用的解析方法总结

Beautifulsoup的用法实例

入手Git

mondb入手

入手以太坊

入手ZTree

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)