BS4

###BS4会将html文档对象转换为python可以识别的4种对象:
。。。 Tag:标签对象
。。。 NavigableString : 字符内容操作对象
。。。 BeautifulSoup: 文档对象
Beautiful Soup是一个可以从HTML或XML文件忠提取数据的Python库

                python 标准库:BeautifulSoup(markup,'html.parser')
                优点:Python的内置标准库,执行速度适中,文档容错能力强

                lxml  HTML 解析器:BeautifulSoup(markup,'lxml' )
                优点:速度快,文档容错能力强

                lxml XML 解析器:BeautifulSoup(markup,'xml' )
                优点:速度快,唯一支持XML的解析器

                html5lib:BeautifulSoup(markup,'html5lib' )
                优点:最好的容错性,以浏览器的方式解析文档,生成HTML5格式的文档

在这里插入图片描述
这是文件名称为westos.html的html内容
1.获取标签内容
在这里插入图片描述

在这里插入图片描述
从这里可以看到这是属于bs4类
soup.p则是获取p标签的内容

2.获取标签的属性
在这里插入图片描述
在这里插入图片描述
分别获取标签的属性并且修改属性

3.获取标签的文本内容&操作子节点
在这里插入图片描述
在这里插入图片描述

4.面向对象的匹配
在这里插入图片描述
在这里插入图片描述
由图可知第二个打印的是id为text ‘x’,x为任意数字
re.comile(’^d’) 意为以d开头的标签
5.css匹配
在这里插入图片描述

在这里插入图片描述
这是不同选择器的不同选择方法

猜你喜欢

转载自blog.csdn.net/weixin_42719822/article/details/83179890
BS4
今日推荐