PYTHON BS 四大对象 - 代码天地

PYTHON BS 四大对象

其他 2018-08-20 13:01:08 阅读次数: 0

BeautifulSoup是灵活又方便的网页解析库,处理搞笑,支持多种解析器
利用它不用编写正则表达式即可方便地实现网页信息的提取
BS的四大对象：
1.Tag
Tag就是HTML中的一个个标签,例如：
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
我们就可以通过Bs轻松的从Html中获取
soup = BeautifulSoup(html,"lxml")
print(soup.a)
当然你也可以获取别的标签
我们来验证以下这些对象的类型
print(type(soup.a))
<class 'bs4.element.Tag'>
对于Tag,它有两个重要的属性,name 和 attrs
print(soup.a.name)
print(soup.a.attrs)
#a
#{'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'}
name这个比较特殊,它就代表着标签名称,而attrs则代表自己的一些信息,或者称作属性.它是一个字典形,那如果我们想获取里面的某个值怎么做呢,直接访问那个key就完事了.
print(soup.a['href'])
结果为:#http://example.com/elsie
2.NavigableString
既然我们已经得到了标签的内容,那么问题来了,那我们想获取里面 d的内容应该怎么办，直接.string即可..
print soup.p.string
#The Dormouse's story
这样就方便多了，它的类型是什么呢
print type(soup.p.string)
#<class 'bs4.element.NavigableString'>
3.BeautifulSoup
BeautifulSoup对象表示一个文档的所有内容,大部分时候,我们可以将它当作一个Tag,我们可以获得它的类型名称属性让我们Feel一下。
print type(soup.name)
#<type 'unicode'>
print soup.name
# [document]
print soup.attrs
#{} 空字典
4.Comment
有意思的是,如果其中的内容有htmlz注释 “.string” 它会自动的过滤掉注释所以我们可以进行下判断
print(type(soup.a.string))
print(bs4.element.Comment)
#<class 'bs4.element.Comment'>
#<class 'bs4.element.Comment'>
if type(soup.a.string)=bs4.element.Comment:
print(soup.a.string)

猜你喜欢

转载自www.cnblogs.com/iWaitYou/p/qq947099752.html

PYTHON BS 四大对象

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

python面向对象四大特征

python的-bs4

BS（python相关记录）

Python Bs4 回顾

17python-BS编程

Python之BS4

python-bs4模块

python(BS4模块)

python bs4库

python bs4 BeautifulSoup

python安装bs4

python 之Bs4

bs

【Python爬虫】Python爬虫三大基础模块（urllib & BS4 & Selenium）

python27 四大模块补充总结与面向对象总结

《python无师自通》第十三章面向对象编程的四大支柱

读书笔记之python面向对象编程的四大支柱

python爬虫三大解析数据方法：bs4 及爬小说网案例

python事务四大特性ACID

python变量作用域（四大）

python的四大函数讲解

【Python】基础之四大容器

Python入门——四大容器解析

Python主流的四大编程框架

Python网络爬虫与信息提取（四）bs4的内容遍历方法及注意事项

python爬虫入门之————————————————第四节--使用bs4语法获取数据

[ python] 爬虫笔记（四) 数据解析之bs4解析

day34 python 对象的特殊方法__setattr__() 进程 requests模块 bs4模块

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)