python爬虫基础知识—02python网络爬虫与信息提取 - 代码天地

python爬虫基础知识—02python网络爬虫与信息提取

其他 2019-04-10 23:01:06 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/yulizan9165/article/details/89197720

1、soup=BeautifulSoup(‘

data

’,‘html.parser’)
第一个为BeautifulSoup需要解析的代码、变量等，第二个为解析器
2、BeautifulSoup库是解析、遍历、维护“标签树”的功能库

属性由键值对构成 from bs4 import BeautifulSoup soup=BeautifulSoup("data","html.parser") soup2=BeautifulSoup(open("D://demo.html"),"html.parser") 3、BeautifulSoup库解析器 https://www.cnblogs.com/themost/p/7223907.html?utm_source=itdadao&utm_medium=referral https://www.cnblogs.com/hanmk/p/8724162.html https://www.jianshu.com/p/9cd7fb95b74f

4、html的结构
标签树的下行遍历：
.content 子节点的列表，将所有儿子节点存入列表
.children 子节点的迭代类型，与.content类似，用于循环遍历儿子节点
.descendants 子孙节点的迭代类型，包含所有子孙节点，用于循环遍历
标签树的上行遍历
.parent 节点的父亲标签
.parents 节点先辈标签的迭代类型，用于循环遍历先辈节点
示例程序
soup=BeautifulSoup(demo,“html.parser”)
for parent in soup.a.parents:
if parent is None:
print(parent)
else:
print(parent.name)

标签树的平行遍历
.next_sibling 返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling 返回按照html文本顺序的上一个平行节点标签
.next_siblings 迭代类型，返回按照html文本顺序的后续所有平行节点标签
.previous_siblings 迭代类型，返回按照html文本顺序的前续所有平行节点标签

平行遍历发生在同一个父节点下的各节点间

5、基于bs4库的html输出
bs4库的prettify（）方法，能为html的标签和内容增加换行符

6、bs4库的基本元素
Tag Name Attributes NavigableString Comment
.bs4库的遍历功能

猜你喜欢

转载自blog.csdn.net/yulizan9165/article/details/89197720

python爬虫基础知识—02python网络爬虫与信息提取

Python网络爬虫与信息提取（8）—— scrapy框架基础知识

Python 爬虫基础学习--网络爬虫与信息提取

Python网络爬虫与信息提取（一）

Python网络爬虫与信息提取

Python 信息提取-爬虫

Python网络爬虫与信息提取（2）—— 爬虫协议

Python网络爬虫与信息提取（五）信息标记与信息提取的一般方法

Python网络爬虫与信息提取（二）**kwargs参数详解

Python网络爬虫和信息提取（一）

2018.5.4(python网络爬虫与信息提取入门)Robots协议

Python网络爬虫与信息提取_Requests库

Python网络爬虫与信息提取Day2

Python网络爬虫与信息提取Day1

python网络爬虫和信息提取(mooc)

Python网络爬虫信息提取mooc代码实例

Python网络爬虫与信息提取(实例讲解)

Python网络爬虫与信息提取（第四周）

Python 网络爬虫与信息提取（第三周）

Python 网络爬虫与信息提取（第二周）

python之网络爬虫与信息提取(上篇)

Python网络爬虫与信息提取笔记02-网络爬虫之“盗亦有道”

Python爬虫中的信息提取

网络爬虫与信息提取

Python网络爬虫与信息提取(二)：网络爬虫之提取

Python网络爬虫与信息提取(第7期) 测验1: Python网络爬虫之规则

Python网络爬虫与信息提取(三)：网络爬虫之实战

Python网络爬虫与信息提取（二）：网络爬虫之规则

Python网络爬虫与信息提取笔记05-信息组织与提取方法

Python网络爬虫与信息提取（12）—— 爬虫批量搜索音乐并下载模拟request请求

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)