bs4用法

beautfulsoup常用的解析器,html.parser(python)自带,速度适中,lxml解析库,速度库,文档容错能力强,需要安装lxml库,建议用这个

from bs4 import BeautifulSoup
import requests
res = requests.get(url).text
###标签的选择方法###
soup = BeutifulSoup(res,'lxml')
soup.p.attrs['name']#可以获得皮标签的name属性的值
soup.div.p.string#div标签下p标签的字符串
soup.p.children#p标签下所有子节点,返回是一个迭代器
soup.p.descendants#p标签下所有子孙节点,比如p的子节点下还有子节点,
这个方法可以把这些节点都选中
soup.p.parent#p标签的父节点。
soup.p.parents#p节点的祖先节点
soup.p.next_siblings#p标签的下面的兄弟节点
soup.p.previous_siblings#p标签上面的兄弟节点
##带有属性的选择方法##
soup.find_all('p')#选择所有p标签
soup.find_all(attrs={'id':'xxx'})#选择所有ID属性值XXX
soup.find_all('p',attrs={'id':'xxx'})#选择p标签中id属性值为xxx的所有内容

#####css选择器
soup.select('.xxx')#class为xxx的所有内容
soup.select('div p')#div标签下的p标签
soup.select('#xxxx')#id为xxx的内容
soup.select('div,li')#选择div,li标签



猜你喜欢

转载自blog.csdn.net/kumoshu/article/details/80056884
BS4
今日推荐