python爬虫教程:bs4的使用

bs4 的使用

  1. bs4 就是Beautiful Soup 的简称,这是一个工具箱,通过解析文档为用户提供需要抓取的数据,
  2. 使用这个不需要在编码的上面考虑,他会自动转换为utf-8编码。
  3. 但是使用这个的前提的就是网页是完整的,但是现在的网页大多规范化,所以都是可以用的
  4. 官网: http://beautifulsoup.readthedocs.io/zh_CN/latest/
  5. bs4 必须使用一种解析器,如果你没有安装其他的HTML解析器,他会默认使用自带的解析器,但是lxml 解析器更加强大,速度更快,推荐安装
  6. 对于 四种解析器的对比
解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, “html.parser”) 1. Python的内置标准库 2. 执行速度适中 3.文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, “lxml”) 1. 速度快 2.文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”) 1. 速度快 2.唯一支持XML的解析器 3.需要安装C语言库  
html5lib BeautifulSoup(markup, “html5lib”) 1. 最好的容错性 2.以浏览器的方式解析文档 3.生成HTML5格式的文档 4.速度慢 不依赖外部扩展

想要学习Python?Python学习交流群:973783996满足你的需求,资料都已经上传群文件,可以自行下载!

对于bs4 有四大对象种类

  1. Tag
  2. navigableString
  3. BeautifulSoup
  4. Comment

更加细致的编写的方法,可以去官网查看

猜你喜欢

转载自blog.csdn.net/fei347795790/article/details/89256341