爬虫-beautifulsoup-bs库 - 代码天地

爬虫-beautifulsoup-bs库

企业开发 2023-04-08 04:25:18 阅读次数: 0

import bs4 from BeautifulSoup

beautifulsoup库常用函数：

首先：bs=BeautifulSoup(html, "html.parser")到解析过后的html #html是已经获取的文本格式的html，html.parser是bs解析器，可以自行选择；
- beautifulsoup将html文档转换成一个树形结构，每个节点都是Python对象，所有的对象可以归纳为4种：
  - Tag：通俗的讲就是一个个标签，
  - NavigableString：标签内部的文字
  - BeautifulSoup：也就是整个html文档形成的结构树
  - Comment：注释，会把注释符号给去掉
常用函数
- bs选择器：
  - bs.select("xxx")：得到所有xxx标签
  - bs.select(".xxx")：通过类名查找
  - bs.select("#xxx")：通过id查找
  - bs.select("xxx > yyy")：xxx的子标签yyy
  - bs.select(".xxx ~ .yyy") #xxx标签的兄弟标签
  - ......
- Tag：
  - bs.find_all('xxx')：找到所有的<xxx>标签里的内容（包括标签）
  - bs.find("xxx")：只返回第一个<xxx> == bs.'标签名'
  - 某TAG.name：返回这个标签的名字
  - 某TAG.attrs：返回此标签所有的属性，是一个字典类型
- NavigableString：
  - TAG.string就可以取到标签内部的文字
- BeautifulSoup：就是整个html
- Comment：注释，会去掉注释符号
  - 有时标签内的文字其实是注释，使用.string方法时会得到已经去掉了注释符号的注释，这时就需要去判断是不是注释，再进行判断
- 格式整理
  - .strip()、.lstrip()、.rstrip()：去掉空格
  - .replace('aaa', 'bbb')：用bbb替换掉aaa
- 其他
  - 直接子节点
    - .contents：将子节点的属性以列表输出
      - 可以使用.contents[index]进行输出，但是并不是一个标签对应一位索引
    - .children：返回一个list生成器对象，直接遍历就可以得到里面的内容

猜你喜欢

转载自blog.csdn.net/Jinandawang/article/details/112898358

爬虫-beautifulsoup-bs库

python爬虫二:bs4库中的BeautifulSoup模块

Python 爬虫学习04 bs库示例学习(beautifulSoup)

beautifulsoup爬虫使用-bs4

爬虫——bs4.BeautifulSoup 模块

python-爬虫-bs4-BeautifulSoup

python爬虫-bs4-BeautifulSoup

爬虫系列-beautifulsoup(bs4)

python爬虫学习笔记3：bs4及BeautifulSoup库学习

Python爬虫-BeautifulSoup 库

python爬虫——BeautifulSoup库

爬虫：BeautifulSoup库的使用

爬虫之BeautifulSoup库

爬虫解析库beautifulsoup

【爬虫】一、BeautifulSoup库

爬虫入门-BeautifulSoup库

python 爬虫之beautifulsoup（bs4）使用

python 爬虫：BeautifulSoup(bs4) 找不到对应的元素

python爬虫思路及BeautifulSoup bs4使用

Python爬虫学习笔记（六）————BeautifulSoup（bs4）解析

【Python网络爬虫】150讲轻松搞定Python网络爬虫付费课程笔记篇八——爬虫解析库 bs4 BeautifulSoup

python库的解析--BeautifulSoup(bs4库)

python爬虫之BeautifulSoup库

爬虫笔记（十四）——BeautifulSoup库

爬虫之 BeautifulSoup库的使用

爬虫解析库re,Beautifulsoup,

爬虫【二】 BeautifulSoup库的使用

网络爬虫BeautifulSoup库的使用

爬虫入门 beautifulsoup库（一）

python爬虫的BeautifulSoup库详解

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)