自学python爬虫（五）BeautifulSoup库的介绍

一、概念

BeautifulSoup是灵活又方便的网页解析库，处理高效。支持多种解释器。利用它可以不用编写正则表达式即可方便地实现网页信息的提取。

二、解析库

这里写图片描述

三、实例讲解

下面用到的代码

html = """<html>
<head>
<title>关于软件学院本科生开放实验室注册的通知-中南大学软件学院</title><META Name="keywords" Content="中南大学,软件学院,中南大学软件学院,国家示范性软件学院" />
<p class="title" name = "news">
        这是测试用的代码

       <a href="#">这是一个假链接</a>
    </p>
<p>Hello world!</p>
"""

下面是标签选择器的使用：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'lxml')
# 格式化文本，缺少的部分补全
print(soup.prettify())
# 输出title标签
print(soup.title)
# 输出title标签的类型
print(type(soup.title))
#  输出title标签的内容
print(soup.title.string)
# 输出head
print(soup.head)
print(soup.p)
# 获取标签名称
print(soup.title.name)
# 获取属性
print(soup.p.attrs['name'])
print(soup.p['name'])
# 嵌套选择
print(soup.head.title.string)
# 子节点，以list列表的形式给出
print(soup.p.contents)
# 获取子节点，以迭代器给出
print(soup.p.children)
for i,child in enumerate(soup.p.children):
    print(i,child)
# 获取所有的子孙节点
print(soup.p.descendants)
for i,child in enumerate(soup.p.descendants):
    print(i,child)
#  父节点
print(soup.a.parent)
# 祖先节点
print(soup.a.parents)
for i,parent in enumerate(soup.a.parents):
    print(i,parent)
# 兄弟节点
print(list(enumerate(soup.a.next_siblings)))
print(list(enumerate(soup.a.previous_siblings)))

下面是标准选择器：
find_all(name,attrs,recursive,text,**kwargs)可根据标签名、属性、内容查找文档。find_all返回所有元素，find返回单个元素

print(soup.find_all('ul'))
print(type(soup.find_all('ul')[0]))
for ul in soup.find_all('ul'):
    print(ul.find_all('li'))
# attrs 传入dict类型参数    
print(soup.find_all(attrs={'id':'list-1'}))
print(soup.find_all(attrs={'name':'elements'}))
# 或者这样
print(soup.find_all(id='list-1'))
# class_
print(soup.find_all(class_='element'))
# text
print(soup.find_all(text='Foo'))
# find
print(soup.find('ul'))
print(type(soup.find('ul')))
#测试一个找不到的
print(soup.find('page'))

find_parents() 返回所有祖先节点find_parent()返回直接父节点；
find_next_siblings()返回所有兄弟节点，find_next_sibling()返回后面第一个兄弟节点；
find_previous_siblings()返回所有的兄弟节点，find_previous_sibling()返回前面第一个兄弟节点；
find_all_next() 返回所有符合条件的节点find_next()返回第一个符合条件的节点
find_all_prexious() 返回节点后所有符合条件的节点find_previous()返回第一个符合条件的节点。
下面是CSS选择器：
通过select()直接传入CSS选择器即可完成选择。

# class 中间有空格
print(soup.select(' .panel .panel-heading'))
# 选择标签
print(soup.select('ul li'))
# id
print(soup.select('#list-2 .element'))
print(type(soup.select('ul')[0]))
for ul in soup.select('ul'):
    print(ul.select('li'))
# 获取属性
for ul in soup.select('ul'):
    print(ul['id'])
    print(ul.attrs['id'])
# 获取内容
for li in soup.select('li'):
    print(li.get_text())

总结：
1、推荐使用xml解析库，必要时使用html.parse
2、标签选择筛选功能弱但是速度快
3、建议使用find()、find_all()查询匹配单个结果或多个结果
4、如果对CSS选择器熟悉建议使用select()
5、记住常用的获取属性和文本值得方法