Beautifulsoup的常规用法总结 - 代码天地

Beautifulsoup的常规用法总结

编程语言 2018-07-21 20:14:43 阅读次数: 0

关于beautiful soup官方解释为：Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

1.首先来看一下用该库解析下来的效果对比

这是官网上的源代码及其格式

当我运行一下代码时解析该网站时格式如下

可以看到其成树状结构，可以用soup.title,soup.p等语句进一步提取出所需标签里的内容（比用正则表达式快很多），如soup.title

2.接下来了解Beautiful Soup的具体用法

首先明白Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment .（来自官方文档）

首先导入库

from bs4 import BeautifulSoup    #导入库

创建对象

url = 'http://news.hitwh.edu.cn/'
resp = urllib.request.urlopen(url)
html = resp.read()
soup = BeautifulSoup(html, 'html.parser')

3.解析出的对象的类别

（1）tag。html标签，可以用soup.title,soup.p等方式提取出对应标签的内容

（2）NavigableString。

4.标准选择器

（1）find_all()，可以根据标签，属性，内容查找文档。如

print(soup.find_all("div", "menu"))

就能提取出类名为menu的div标签的内容

（2）find()，find_all()返回的是所有元素列表，find()返回单个元素

（3）css选择器

soup.select("title")

总结：总之BeautifulSoup是一个很好的用来解析html文档的库，可以较快地提取出我们想要的标签的内容及还要检索的东西，相对于正则表达式，极大的简化了处理过程

猜你喜欢

转载自blog.csdn.net/sydney__/article/details/81133827

Beautifulsoup的常规用法总结

Python爬虫：BeautifulSoup用法总结

BeautifulSoup的用法

BeautifulSoup用法

BeautifulSoup总结

Python3 --- BeautifulSoup4用法总结

beautifulSoup实用基本用法

python|爬虫beautifulsoup的用法

Beautifulsoup的用法实例

BeautifulSoup用法详解

Beautifulsoup常见用法

Python BeautifulSoup库的用法

BeautifulSoup基本用法

BeautifulSoup的简单用法

beautifulsoup 最基本的用法

Python-BeautifulSoup用法

HibernateTemplate常规用法

scss的常规用法

MFC listcontrol的常规用法

GridView的常规属性及用法

Glide常规用法

fastjson 的常规用法

数组的常规用法合集

registerForActivityResult常规用法

BeautifulSoup常用总结

BeautifulSoup使用总结

Python BeautifulSoup总结

python 总结：正则 xpath beautifulsoup 的用法以及优胜劣汰

Android常规问题总结

AJAX常规应用总结

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)