###BS4会将html文档对象转换为python可以识别的4种对象:
。。。 Tag:标签对象
。。。 NavigableString : 字符内容操作对象
。。。 BeautifulSoup: 文档对象
Beautiful Soup是一个可以从HTML或XML文件忠提取数据的Python库
python 标准库:BeautifulSoup(markup,'html.parser')
优点:Python的内置标准库,执行速度适中,文档容错能力强
lxml HTML 解析器:BeautifulSoup(markup,'lxml' )
优点:速度快,文档容错能力强
lxml XML 解析器:BeautifulSoup(markup,'xml' )
优点:速度快,唯一支持XML的解析器
html5lib:BeautifulSoup(markup,'html5lib' )
优点:最好的容错性,以浏览器的方式解析文档,生成HTML5格式的文档
这是文件名称为westos.html的html内容
1.获取标签内容
从这里可以看到这是属于bs4类
soup.p则是获取p标签的内容
2.获取标签的属性
分别获取标签的属性并且修改属性
3.获取标签的文本内容&操作子节点
4.面向对象的匹配
由图可知第二个打印的是id为text ‘x’,x为任意数字
re.comile(’^d’) 意为以d开头的标签
5.css匹配
这是不同选择器的不同选择方法