python数据分析之爬虫二：BeautifulSoup库

其他 2018-08-13 20:08:36 阅读次数: 0

官网学习链接：https://www.crummy.com/software/BeautifulSoup/

Beautiful Soup库的安装小测

页面源代码：HTML5.0格式。获取源代码的方式：在页面右击选择源代码或用Requests库获取demo.html源代码。

from bs4 import BeautifulSoup

soup=BeautifulSoup('<p>data</p>','html.parser')

Beautiful Soup库的基本元素

BeautifulSoup类的基本元素

基于bs4库的HTML内容遍历方法

标签树的下行遍历

标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

标签树的平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

for sibling in soup.a.next_siblings:
    print(sibling)                      #遍历后续节点
for sibling in soup.a.previous_siblings:
    print(sibling)                      #遍历前续节点

基于bs4库的HTML格式输出

bs4库的prettify()方法

.prettify()为HTML文本<>及其内容增加‘\n’

.prettify()可以用于标签，方法为<tag>.prettify()

bs4库的编码

信息标记的三种方式

信息标记的三种形式：XML JSON YAML

XML：与HTML很想，也可以说是HTML的一种特殊形式。

JSON

YAML

三种信息标记形式的比较

信息提取的一般方法

基于bs4库的HTML内容查找方法

方法<>.find_all(name,attrs,recursive,string,**kwargs) 返回一个列表类型，存储查找的结果。

name:对标签名称的检索字符串。

检索所有的标签名，传入参数True 检索以‘b’开头的所有信息，导入re模块，用正则表达式。

attrs:对标签属性值的检索字符串，可标注属性检索。

recursive：是否对子孙全部检索，默认为True

string：<>...</>中字符串区域的检索字符串

按照检索区域和返回个数的不同，又可以由另外几种方法

猜你喜欢

转载自blog.csdn.net/qq_40123329/article/details/81587080

python数据分析之爬虫二：BeautifulSoup库

python数据分析之爬虫三：BeautifulSoup库爬虫实例

python数据分析之爬虫一：Requests库

python爬虫之BeautifulSoup库

Python爬虫之BeautifulSoup库(二)：对象的种类

python爬虫之数据解析（一）：BeautifulSoup4库

python爬虫之路（二）-----beautifulsoup库详解

Python爬虫之BeautifulSoup库(六)：输出

python爬虫之BeautifulSoup库程序笔记

Python网络爬虫之BeautifulSoup库

Python爬虫【解析库之beautifulsoup】

python 爬虫之BeautifulSoup 库的基本使用

python之爬虫（八）BeautifulSoup库的使用

python数据分析之爬虫六：Scrapy爬虫

python代码库之爬虫+数据分析+数据可视化（未完）

数据之路 - Python爬虫 - BeautifulSoup库

爬虫之BeautifulSoup库

Python爬虫-BeautifulSoup 库

python爬虫——BeautifulSoup库

python数据分析之matplotlib库

Python数据分析之Pandas库

python爬虫之BeautifulSoup

python爬虫之BeautifulSoup

Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式

python数据分析之爬虫五：实例

python爬虫与数据分析之《向往的生活爬取》

【Python】爬虫之豆瓣电影大数据分析

python凤凰新闻数据分析（二）爬虫数据写入django sqlite3数据库

python爬虫+数据分析之NBA球员LBJ13个赛季的数据分析

Python爬虫解析库之BeautifulSoup解析库详解

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)