Python Beautiful Soup模块的使用 - 代码天地

Python Beautiful Soup模块的使用

其他 2018-10-10 10:20:34 阅读次数: 0

一、安装

pip install beautifulsoup4

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库；它能够实现文档导航，查找，修改文档等操作。

二、使用方法

from bs4 import BeautifulSoup # 引用模块

# features html的解析引擎
soup = BeautifulSoup('html或者xml文件',features='html.parser')

# html、xml查找匹配的第一个标签和属性节点
target1 = soup.find(html、xml中的标签和属性) 
target1 = soup.select(html、xml中的标签和属性)

# 在target1 查找匹配的所有标签和属性节点，返回一个列表
target2 = target.find_all(html、xml中的标签和属性) 
# 通过遍历 或者 索引获取其中的节点内容 target2[0]

# 获取标签中的文本内容 str 类型
target1.text 

# 获取标签中的文本内容 bytes 类型（字节类型）
target1.content 

# 获取节点所有的属性，返回字典
dict = target1.attrs

# 获取某一个属性
htmlHref = dict.get('href')

2.1、html解析器

下表列出了主要的解析器,以及它们的优缺点:

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, "html.parser")	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, "lxml")	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml")	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, "html5lib")	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

2.2、使用的方法

target.name 获取标签的名称
target.attrs = {key:value} # 修改标签的属性
target.attrs['id'] = {'id':'名称'}

猜你喜欢

转载自blog.csdn.net/u011146423/article/details/82976998

Python Beautiful Soup模块的使用

Python Beautiful Soup 4 模块

Beautiful Soup模块的使用

20181223 python 使用Beautiful Soup

python 安装爬虫模块神器 Beautiful Soup

Python爬虫--Beautiful Soup

Python Beautiful Soup 4

（十九）Python爬虫：Beautiful Soup的使用

Python 爬虫解析库的使用 --- Beautiful Soup

Python爬虫库-Beautiful Soup的使用

Python爬虫入门——Beautiful Soup库的使用

python爬虫开发之Beautiful Soup模块从安装到详细使用方法与实例

Python 爬虫 ---- Beautiful Soup（二）

Python 爬虫 ---- Beautiful Soup（一）

Beautiful Soup模块详解

Python中解析 html 使用Beautiful Soup库

python3爬虫（二）-使用beautiful soup 读取网页

Python爬虫之Beautiful Soup解析库的使用（五）

Python3爬虫从零开始：Beautiful Soup的使用

python爬虫系列(3.5-Beautiful Soup的使用)

python爬虫学习7_Beautiful Soup使用

Python笔记：网络爬虫之XPath、Beautiful Soup、PyQuery的使用

Python爬虫学习（二）使用Beautiful Soup库

python3爬虫(6)--使用Beautiful Soup解析数据

Python中使用Beautiful Soup库的超详细教程

Python爬虫之解析库的使用(XPath、Beautiful Soup)

python网络爬虫学习笔记（九）：Beautiful Soup的使用

使用 Python 的 requests 和 Beautiful Soup 来分析网页

Beautiful Soup 的使用

使用Beautiful Soup

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)