从零开始学习--Beautifulsoup 6月29日

Python

                                                                                                                                                                                ---小白121的记录笔记


Beautifulsoup

beautifulsoup 是 爬虫的一个第三方库,主要用于过滤出有用的数据

pip和ide工具都可以进行安装



BeautifulSoup 将 HTML 分成 四个对象

  • Tag
  • NavigableString
  • BeautifulSoup
  • Comment

创建 Beautifulsoup 对象

soup = BeautifulSoup(html)

打印soup对象的内容

print(soup.prettify()

打印 Tag

print(soup.html.encode('utf-8'))
print(soup.title.encode('utf-8'))
print(soup.head.encode('utf-8'))
print(soup.a.encode('utf-8'))
print(soup.p.encode('utf-8'))

所以 Tag 即使 HTML 里面的各种标签

对于Tag来说,有两个重要的属性

  • name
  • attrs
 
 
print (soup.title.name)
print (soup.a.attrs)

name 输入当前标签名字

attrs 把a标签的所以属性打印出来


Navigablestring

print(soup.a.string)

显示当前标签的内容


单词

sibling    兄弟姐妹

with        等待

element    要素

document    文档

previous    以前的





猜你喜欢

转载自blog.csdn.net/qq_42184699/article/details/80862366
今日推荐