Python3网络爬虫教程15——BeautifulSoup4中的编码，格式化，解析器的区别 - 代码天地

Python3网络爬虫教程15——BeautifulSoup4中的编码，格式化，解析器的区别

其他 2019-01-25 20:23:20 阅读次数: 0

版权声明：本文章为沐言-BigTree原创，转载复制请标明出处 https://blog.csdn.net/u011318077/article/details/86633466

上接：
Python3网络爬虫教程14——BeautifulSoup4之搜索文档树
https://blog.csdn.net/u011318077/article/details/86633433

5.5. 格式化输出

prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,
每个XML/HTML标签都独占一行

如下示例
markup = ‘I linked to example.com’
soup = BeautifulSoup(markup)
soup.prettify()
print(soup.prettify())

  # <html>
  #  <head>
  #  </head>
  #  <body>
  #   <a href="http://example.com/">
  #    I linked to
  #    <i>
  #     example.com
  #    </i>
  #   </a>
  #  </body>
  # </html>

5.6. 解析器的区别

主要的解析器,以及它们的优缺点

Python标准库 BeautifulSoup(markup, “html.parser”)
Python的内置标准库
执行速度适中
文档容错能力强
Python 2.7.3 or 3.2.2)前的版本中文档容错能力差

lxml HTML 解析器 BeautifulSoup(markup, “lxml”)
速度快
文档容错能力强
需要安装C语言库
lxml XML 解析器
BeautifulSoup(markup, [“lxml-xml”])

BeautifulSoup(markup, “xml”)
速度快
唯一支持XML的解析器
需要安装C语言库

html5lib BeautifulSoup(markup, “html5lib”)
最好的容错性
以浏览器的方式解析文档
生成HTML5格式的文档
速度慢
不依赖外部扩展

5.7. 编码

任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,
但是使用Beautiful Soup解析后,文档都被转换成了Unicode

扫描二维码关注公众号，回复： 5068321 查看本文章
编码自动检测_ 功能大部分时候都能猜对编码格式,但有时候也会出错.
有时候即使猜测正确,也是在逐个字节的遍历整个文档后才猜对的,这样很慢.
如果预先知道文档编码,可以设置编码参数来减少自动检查编码出错的概率
并且提高文档解析速度
语法
soup = BeautifulSoup(markup, from_encoding=“iso-8859-8”)
通过Beautiful Soup输出文档时,不管输入文档是什么编码方式,
输出编码均为UTF-8编码

5.8. 补充知识

复制Beautiful Soup对象
copy.copy() 方法可以复制任意 Tag 或 NavigableString 对象
import copy
p_copy = copy.copy(soup.p)
print p_copy
#
I want pizza and more pizza!

本章案例较多：
源代码请到GITHUB下载：
https://github.com/FangbaiZhang/TLXY_study_note/tree/master/Spider

下接：
Python3网络爬虫教程16——待更新

猜你喜欢

转载自blog.csdn.net/u011318077/article/details/86633466

Python3网络爬虫教程15——BeautifulSoup4中的编码，格式化，解析器的区别

Python3网络爬虫教程14——BeautifulSoup4之搜索文档树

Python3网络爬虫教程13——BeautifulSoup4基本使用及遍历文档树

Python爬虫(十二)_BeautifulSoup4 解析器

Python3网络爬虫(五) -- 爬虫解析库LXML、BeautifulSoup、PyQuery

Python3网络爬虫实战-29、解析库的使用：BeautifulSoup

Python爬虫开发【第1篇】【beautifulSoup4解析器】

【python】打卡学习第七天-爬虫解析器BeautifulSoup4

【python3爬虫】beautifulsoup4 安装

python3解析库BeautifulSoup4

《Python3网络爬虫开发实战》教程

[Python3网络爬虫开发实战] 4-解析库的使用

python3之beautifulsoup4

Python3 BeautifulSoup4

Python爬虫--BeautifulSoup4教程、练习

关于BeautifulSoup4 解析器的说明

python爬虫beautifulsoup4系列3

《崔庆才Python3网络爬虫开发实战教程》学习笔记（4）：解析库Xpath的使用方法总结

Python3网络爬虫实战-15、爬虫基础：HTTP基本原理

《Python3网络爬虫开发实战》读书笔记3（第4章：解析库的使用Xpath）

Python3网络爬虫教程12——页面解析及正则表达式的使用

python 爬虫-beautifulsoup4

python3爬虫(基于requests、BeautifulSoup4)之环境配置

python3爬虫(基于requests、BeautifulSoup4)之项目实战(三)

python3爬虫(基于requests、BeautifulSoup4)之项目实战(二)

python3爬虫(基于requests、BeautifulSoup4)之项目实战(一)

【爬虫】002 python3 +beautifulsoup4 +requests 爬取静态页面

【Python3 爬虫】U10_初识BeautifulSoup4库

Python3网络爬虫教程5——ProxyHandler处理（代理服务器和代理IP）

python3解析库BeautifulSoup4的安装配置与基本用法

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)