Python爬虫基础（二）--beautifulsoup-美丽汤框架介绍

其他 2019-11-13 11:34:25 阅读次数: 0

beautifulsoup 框架介绍

框架官方中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

框架基本使用：

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种：

　　Tag：标签

　　NavigableString：可遍历字符串对象

　　BeautifulSoup：表示一个文档的全部内容

　　Comment：注释

find_all()函数：

find_all( name , attrs , recursive , string , **kwargs )

　　搜索 name 参数的值可以使任一类型的过滤器 ,字符窜,正则表达式,列表,方法或是 True

recursive ：布尔型，是否查找所有子节点，默认为true

eg：

find_all("a") 查找标签为a

find_all(id="xx") 查找id为xx的属性

soup.find_all(href=re.compile("elsie"), id='link1') 查找属性值包含"elsie"且id为'link1'

data_soup.find_all(attrs={"data-foo": "value"}) 查找属性名为data-foo值为value

soup.find_all("a", class_="sister") 查找标签为a，class为sister（注意class是python中的关键字，所以这里要用class_）

soup.find_all("a", attrs={"class": "sister"}) 查找标签为a，class属性为sister

find_next_siblings() 和 find_next_sibling() 平行查找（在同一个父节点下的下一个/所有子节点，注意是同一个父节点下）

css选择器：select()

soup.select("title") 查找title标签

soup.select("p:nth-of-type(3)") 查找p标签

soup.select("body a") 查找body标签中的a标签

soup.select(".sister") 查找class为sister的标签注意有个.

soup.select("[class~=sister]") 查找class为sister的标签符号：~=

soup.select("a#link2") 查找a标签且id为lingk2

soup.select("#link1,#link2") 查找id为link1或者lingk2

soup.select('a[href]') 查找a标签且存在属性名为href

输出：

格式化输出：soup.prettify()

压缩输出：str(soup) 或者 unicode(soup.a) （应用于只想得到结果字符串,不重视格式）

输出tag中的文本内容：get_text()

输出tag中的文本内容扩展：soup.get_text(strip=True) 去除文本前后的空白符

其他详细介绍可以参阅官方文档

猜你喜欢

转载自www.cnblogs.com/james-danni/p/11847640.html

Python爬虫基础（二）--beautifulsoup-美丽汤框架介绍

python美味的汤-BeautifulSoup介绍

python爬虫教程之美丽汤（一）

Beautifulsoup-基础知识

面向零基础小白的爬虫系列（七）：Beautiful Soup（美丽的汤）

python爬虫基础（requests、BeautifulSoup）

BeautifulSoup主要介绍与基础爬虫项目实践

猫哥教你写爬虫 033--爬虫初体验-BeautifulSoup-作业

【Python爬虫】使用美味汤BeautifulSoup爬取数据并保存为Excel文件

6,BeautifulSoup-获取数据

自学python爬虫（五）BeautifulSoup库的介绍

Python学习爬虫（3）——BeautifulSoup入门介绍

python爬虫（5）——BeautifulSoup & docker基础

python爬虫基础Ⅰ——requests、BeautifulSoup：书本信息

python爬虫之路（二）-----beautifulsoup库详解

BeautifulSoup，一碗美丽的汤，一个隐藏的大坑

爬虫模块介绍--Beautifulsoup

python爬虫实战：基础爬虫(使用BeautifulSoup4等) python爬虫实战：基础爬虫(使用BeautifulSoup4等)

爬虫：BeautifulSoup（二）

Python爬虫之BeautifulSoup库(一)：介绍与快速开始

【python 爬虫】BeautifulSoup4 库的介绍使用

Python学习爬虫（4）--BeautifulSoup中Tag及NavigableSting详细介绍

Python爬虫库BeautifulSoup的介绍与简单使用实例

python爬虫之BeautifulSoup4介绍

python爬虫 scrpy框架介绍和基础应用

python爬虫之Beautifulsoup和Scrapy框架的协同工作

Python爬虫-BeautifulSoup 库

Python爬虫-BeautifulSoup

python爬虫——BeautifulSoup库

python|爬虫beautifulsoup的用法

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)