BeautifulSoup简介
BeautifulSoup是python的一个第三方库,在爬虫中,起着网页解析器的作用,可以对下载好的网页进行页面元素分析,提取出有价值的数据,相比较Lxml,BeautifulSoup的性能会差一些,毕竟是纯python,但是BeautifulSoup解析网页的支持度貌似会好一些。
安装
附上bs4官网(https://www.crummy.com/software/BeautifulSoup/)
然后执行pip install beautifulsoup4
$ sudo apt-get python-bs4(python2)
$ sudo apt-get python3-bs4(python3)
找到相关区域,然后通过get_text()访问标签下面的内容,也可以读取href属性中的内容