爬虫:BeautifulSoup(二)

版权声明:欢迎转载,注明出处 https://blog.csdn.net/jklcl/article/details/81590859

大佬们时不时的在一些网址上爬取一些自己需要的数据,简单的爬取西次的代理IP,困难点的在网易云上爬取收费的歌曲,还有不道德的爬取访问量,满满的羡慕啊,还是自己多学点知识,会点数据分享不会爬虫,那和咸鱼有什么区别。

import requests
from bs4 import BeautifulSoup

#对象的种类
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>',features="html.parser" )
tag = soup.b
#标签类型
print(type(tag))
#标签名字
print(tag.name)
#属性
print(tag['class'])
#”点”取属性
print(tag.attrs)

#一个tag可以有多个CSS的class
css_soup = BeautifulSoup('<p class="body strikeout"></p>',features="html.parser" )
print (css_soup.p['class'])

#如果某个属性看起来好像有多个值,但在任何版本的HTML定义中都没有被定义为多值属性,那么Beautiful Soup会将这个属性作为字符串返回
id_soup = BeautifulSoup('<p id="my id"></p>',features="html.parser")
print(id_soup.p['id'])
#将tag转换成字符串时,多值属性会合并为一个值
rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>',features="html.parser")
print(rel_soup.a['rel'])
rel_soup.a['rel'] = ['index', 'contents']
print(rel_soup.p)
#如果转换的文档是XML格式,那么tag中不包含多值属性
xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml')
print(xml_soup.p['class'])

猜你喜欢

转载自blog.csdn.net/jklcl/article/details/81590859
今日推荐