Python爬虫：使用BeautifulSoup分析网页结构注意事项 - 代码天地

Python爬虫：使用BeautifulSoup分析网页结构注意事项

其他 2018-12-29 09:00:56 阅读次数: 0

开始我用BeautifulSoup分析网页时候这样做：

#从文件读取html源文件内容
with open("html.txt", "r", encoding='utf-8') as file:
    content = file.read()
    
#替换转义字符    
map = {"&lt;" : "<",
        "&gt;" : ">",
        "&amp;" : "&",
        "&quot;" : "\"",
        "&copy;" : "©"}
for (k, v) in map.items():
    content = content.replace(k, v)

#获取网页Tag结构
soup = BeautifulSoup(str, 'lxml')

后来发现会出现奇怪的问题，原来上面的替换多此一举。
BeautifulSoup会将HTML的实例都转换成Unicode编码，而且在获取内容时候会自动替换为字符串。
所以上面的代码可以直接简化为：

soup = BeautifulSoup(open("html.txt", "r", encoding='utf-8'), 'lxml')

具体例子：

from bs4 import BeautifulSoup  
html_str = '''
<html><body>
<div>
&gt; 我们的祖国是花园 &lt;）
</div>
</body></html>
'''
soup = BeautifulSoup(html_str, 'lxml')
print(soup.div)
print(soup.div.string)

输出正常：

<div>
&gt; 我们的祖国是花园 &lt;）
</div>

> 我们的祖国是花园 <）

如果我们先对字符串进行了替换，如下面这个程序：

from bs4 import BeautifulSoup  
html_str = '''
<html><body>
<div>
> 我们的祖国是花园 <）
</div>
</body></html>
'''
soup = BeautifulSoup(html_str, 'lxml')
print(soup.div)
print(soup.div.string)

输出：

<div>
&gt; 我们的祖国是花园 
</div>

> 我们的祖国是花园

发现<）这两个字符会因为BeautifulSoup的容错能力而造成丢失。

猜你喜欢

转载自blog.csdn.net/xuejianbest/article/details/85164318

Python爬虫：使用BeautifulSoup分析网页结构注意事项

【整理】python爬虫（1）抓取网页，分析网页内容，模拟登录网站的逻辑、流程和注意事项

爬虫注意事项

Python选择结构注意事项

EventBus的使用，注意事项，错误分析

【Python爬虫】Python爬虫入门教程&注意事项

BeautifulSoup4注意事项

Python爬虫常用的爬虫注意事项及技巧

html 网页注意事项

Python中的self使用注意事项

Caffe 中Python使用的注意事项

【python基础】函数使用注意事项

python 的venv使用注意事项

python pickle使用注意事项

python函数使用注意事项

miccai 爬虫注意事项

Python：注意事项

python 注意事项

python注意事项

javascript在网页中使用以及注意事项

JavaScript代码在网页的使用方式及注意事项

爬虫：urllib模块使用和注意事项

Python数据结构之注意事项

使用数据结构的注意事项（转载）

c++中结构体位域使用注意事项

golang之结构体使用注意事项和细节

Golang struct 结构体注意事项和使用细节

结合源码分析 bubble 使用注意事项

MaxCompute SQL与Hive对比分析及使用注意事项

分析java8的LocalDateTime类及使用的注意事项

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)