Python爬虫beautifulsoup4常用的解析方法总结 - 代码天地

Python爬虫beautifulsoup4常用的解析方法总结

其他 2019-04-28 15:31:21 阅读次数: 0

摘要

如何用beautifulsoup4解析各种情况的网页

beautifulsoup4的使用

关于beautifulsoup4，官网已经讲的很详细了，我这里就把一些常用的解析方法做个总结，方便查阅。

装载html文档

使用beautifulsoup的第一步是把html文档装载到beautifulsoup中，使其形成一个beautifulsoup对象。

初始化BeautifulSoup类时，需要加入两个参数，第一个参数即是我们爬到html源码，第二个参数是html解析器，常用的有三个解析器，分别是”html.parser”,”lxml”,”html5lib”，官网推荐用lxml，因为效率高，当然需要pip install lxml一下。

当然这三种解析方式在某些情况解析得到的对象内容是不同的，比如对于标签不完整这一情况（p标签只有一半）：

使用

在使用中，我尽量按照我使用的频率介绍，毕竟为了查阅~

按照标签名称、id、class等信息获取某个标签

按照标签名称、id、class等信息获取多个标签

按照标签的其他属性获取某个标签

找前头和后头的标签

找父标签

soup.find_parents("div")

soup.find_parent("div")

css选择器

注意几个可能出现的错误，可以用try捕获来防止爬虫进程

UnicodeEncodeError: ‘charmap' codec can't encode character u'\xfoo' in position bar (或其它类型的 UnicodeEncodeError

需要转码

AttributeError: ‘NoneType' object has no attribute ‘foo'

没这个属性

就介绍这么多，应该可以覆盖大部分网页结构了吧~！

猜你喜欢

转载自www.cnblogs.com/Pythonmiss/p/10784120.html

Python爬虫beautifulsoup4常用的解析方法总结

Python爬虫beautifulsoup4常用的解析方法总结（新手必看）

python 爬虫-beautifulsoup4

Python爬虫(十二)_BeautifulSoup4 解析器

python爬虫之数据解析（一）：BeautifulSoup4库

Python爬虫 —— 使用BeautifulSoup4解析HTML文档

python爬虫beautifulsoup4系列3

python爬虫beautifulsoup4系列1

python爬虫beautifulsoup4系列2

Python爬虫--BeautifulSoup4教程、练习

Python 爬虫 BeautifulSoup4 库的使用

python爬虫之-BeautifulSoup4

python BeautifulSoup4解析网页

python BeautifulSoup4解析html

Python爬虫开发【第1篇】【beautifulSoup4解析器】

【python】打卡学习第七天-爬虫解析器BeautifulSoup4

爬虫利器beautifulsoup4

爬虫基础——BeautifulSoup4

爬虫（BeautifulSoup4）——安装

爬虫之BeautifulSoup4

六：爬虫-数据解析之BeautifulSoup4

python爬虫实战：基础爬虫(使用BeautifulSoup4等) python爬虫实战：基础爬虫(使用BeautifulSoup4等)

python爬虫beautifulsoup4系列4-子节点

【Python爬虫】beautifulsoup4库的安装与调用

【python 爬虫】BeautifulSoup4 库的介绍使用

【python3爬虫】beautifulsoup4 安装

Python网络爬虫——BeautifulSoup4库的使用

python爬虫之BeautifulSoup4库的简单用法

python爬虫之BeautifulSoup4介绍

python爬虫之BeautifulSoup4基础教程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)