【Python】BeautifulSoup

简介

我们知道,一个网页是由HTML文档组成的,HTML文档是一种结构化的文档,有一定的规则,通过它的结构可以简化信息提取。

Beautiful Soup 4.4.0 文档

我的理解就是:将一段HTML文档通过 BeautifulSoup()构造方法 解析成一个对象,然后对这个对象进行操作。

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。取名来自 《爱丽丝梦游仙境》 ,下面的代码来自官方文档,是 《爱丽丝梦游仙境》 中的一段内容。

在这里插入图片描述
使用BeautifulSoup解析这段代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出:

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.prettify())

# 输出
# <html>
#  <head>
#   <title>
#    The Dormouse's story
#   </title>
#  </head>
#  <body>
#   <p class="title">
#    <b>
#     The Dormouse's story
#    </b>
#   </p>
#   <p class="story">
#    Once upon a time there were three little sisters; and their names were
#    <a class="sister" href="http://example.com/elsie" id="link1">
#     Elsie
#    </a>
#    ,
#    <a class="sister" href="http://example.com/lacie" id="link2">
#     Lacie
#    </a>
#    and
#    <a class="sister" href="http://example.com/tillie" id="link2">
#     Tillie
#    </a>
#    ; and they lived at the bottom of a well.
#   </p>
#   <p class="story">
#    ...
#   </p>
#  </body>
# </html>

几个简单的浏览结构化数据的方法:
soup.title
# <title>The Dormouse's story</title>

soup.title.name
# u'title'

soup.title.string
# u'The Dormouse's story'

soup.title.parent.name
# u'head'

soup.p
# <p class="title"><b>The Dormouse's story</b></p>

soup.p['class']
# u'title'

soup.a
# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

soup.find_all('a')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.find(id="link3")
# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

从文档中找到所有 ` < a > ` 标签的链接:

在这里插入图片描述

从文档中获取所有文字内容:
在这里插入图片描述


解析器

Beautiful Soup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)。

解析器 使用方法
Python标准库 BeautifulSoup(markup, “html.parser”)
xml HTML解析器 BeautifulSoup(markup, “lxml”)
lxml XML解析器 BeautifulSoup(markup, “xml”)
html5lib BeautifulSoup(markup, “html5lib”)

对象

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

Tag

TagHTML中就是标签的意思
在这里插入图片描述
输出:
在这里插入图片描述

tag中最重要的属性:

  • name
  • attributes

Name

每个tag都有自己的名字,通过 .name 来获取:

如果改变了tag的name,那将影响所有通过当前Beautiful Soup对象生成的HTML文档:
在这里插入图片描述

Attributes

一个tag可能有很多个属性. tag 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:

也可以直接”点”取属性, 比如: .attrs :

在这里插入图片描述


tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样
在这里插入图片描述

NavigableString

可以遍历的字符串
字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:
在这里插入图片描述


tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法:
在这里插入图片描述

BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,它支持 遍历文档树 和 搜索文档树 中描述的大部分的方法.

因为 BeautifulSoup 对象并不是真正的HTML或XML的tag,所以它没有name和attribute属性.但有时查看它的 .name 属性是很方便的,所以 BeautifulSoup 对象包含了一个值为
在这里插入图片描述


Comment

处理文档的注释部分
在这里插入图片描述



遍历文档树

通过下面这段例子来演示怎样从文档的一段内容找到另一段内容
在这里插入图片描述
一个Tag可能包含多个字符串或其它的Tag,这些都是这个Tag的子节点.Beautiful Soup提供了许多操作和遍历子节点的属性.


tag的名字

直接通过 soup.tag的名字 操作文档树。如果想获取 <head> 标签,只要用 Soup.head :
在这里插入图片描述
可以在文档树的tag中多次调用这个方法.
soup.tag名字.tag名字.····

通过点取属性的方式只能获得当前名字的第一个tag

如果想要得到所有的 <a> 标签,或是通过名字得到比一个tag更多的内容的时候,就需要用到 Searching the tree 中描述的方法,比如: find_all()
在这里插入图片描述

.contents 和 .children

tag的 .contents 属性可以将tag的子节点以列表的方式输出:
在这里插入图片描述

通过tag的 .children 生成器,可以对tag的子节点进行循环:
在这里插入图片描述

.descendants

.descendants 属性可以对所有tag的子孙节点进行递归循环 :
在这里插入图片描述

.string

如果tag只有一个 NavigableString 类型子节点或如果一个tag仅有一个子节点,那么这个tag可以使用 .string 得到子节点:
在这里插入图片描述
如果tag包含了多个子节点,tag就无法确定, .string 的输出结果是 None

.strings 和 stripped_strings

如果tag中包含多个字符串 ,可以使用 .strings 来循环获取:
在这里插入图片描述
输出的字符串中可能包含了很多空格或空行,使用 .stripped_strings 可以去除多余空白内容。
全部是空格的行会被忽略掉,段首和段末的空白会被删除.

.parent

通过 .parent 属性来获取某个元素的父节点.在例子“爱丽丝”的文档中,标签是标签的父节点.<br/> <img src="https://img-blog.csdnimg.cn/20200910145334723.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NTQ2ODg0NQ==,size_16,color_FFFFFF,t_70#pic_center" alt="在这里插入图片描述"/><br/> <br/>

.parents

通过元素的 .parents 属性可以递归得到元素的所有父辈节点,下面的例子使用了 .parents 方法遍历了标签到根节点的所有节点.
在这里插入图片描述

.next_sibling 和 .previous_sibling

在文档树中,使用 .next_sibling 和 .previous_sibling 属性来查询兄弟节点:


.next_siblings 和 .previous_siblings

通过 .next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出:



搜索文档树


find_all

只返回第一个匹配到的对象
语法:

find_all( name , attrs , recursive , string , **kwargs )
  • name 查找所有名字为 name 的tag,字符串对象会被自动忽略掉.
  • keyword 搜索时会把该参数当作指定名字tag的属性来搜索,
    在这里插入图片描述

find

返回所有匹配到的结果,区别于find(find只返回查找到的第一个结果)
语法:

find( name , attrs , recursive , string , **kwargs )  

find_parents() 和 find_parent()

find_parents( name , attrs , recursive , string , **kwargs )

find_parent( name , attrs , recursive , string , **kwargs )


修改文档树

修改tag名称和属性

在这里插入图片描述

修改 .string

给tag的 .string 属性赋值,就相当于用当前的内容替代了原来的内容:
在这里插入图片描述
注意: 如果当前的tag包含了其它tag,那么给它的 .string 属性赋值会覆盖掉原有的所有内容包括子tag


new_tag()

创建一个tag最好的方法是调用工厂方法 BeautifulSoup.new_tag() :

在这里插入图片描述
第一个参数作为tag的name,是必填,其它参数选填


append()

Tag.append() 方法向tag中添加内容,就好像Python的列表的 .append() 方法:
在这里插入图片描述

insert()

Tag.insert() 方法与 Tag.append() 方法类似,区别是不会把新元素添加到父节点 .contents 属性的最后,而是把元素插入到指定的位置.与Python列表总的 .insert() 方法的用法下同:

在这里插入图片描述

insert_before() 和 insert_after()

insert_before() 方法在当前tag或文本节点前插入内容:
insert_after() 方法在当前tag或文本节点后插入内容:
在这里插入图片描述

其它函数

clear() 移除当前tag的内容:
extract() 将当前tag移除文档树,并作为方法结果返回:
decompose() 将当前节点移除文档树并完全销毁:
replace_with() 移除文档树中的某段内容,并用新tag或文本节点替代它:
wrap() 可以对指定的tag元素进行包装 [8] ,并返回包装后的结果
unwrap() 与 wrap() 方法相反.将移除tag内的所有tag标签,该方法常被用来进行标记的解包:

输出

格式化输出

prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行在这里插入图片描述
BeautifulSoup 对象和它的tag节点都可以调用 prettify() 方法:
在这里插入图片描述

压缩输出

如果只想得到结果字符串,不重视格式,那么可以对一个 BeautifulSoup 对象或 Tag 对象使用Python的 unicode()str() 方法:
在这里插入图片描述

get_text()

如果只想得到tag中包含的 文本内容, 那么可以使用 get_text() 方法,这个方法获取到tag中包含的所有文版内容包括子孙tag中的内容,并将结果作为Unicode字符串返回:

可以通过参数指定tag的文本内容的分隔符:

还可以去除获得文本内容的前后空白:
在这里插入图片描述

复制Beautiful Soup对象

copy.copy() 方法可以复制任意 Tag 或 NavigableString 对象

import copy
p_copy = copy.copy(soup.p)
print p_copy
# <p>I want <b>pizza</b> and more <b>pizza</b>!</p>

复制后的对象跟与对象是相等的, 但指向不同的内存地址

print soup.p == p_copy
# True

print soup.p is p_copy
# False

猜你喜欢

转载自blog.csdn.net/weixin_45468845/article/details/108498707