requests与BeautifulSoup爬取网页图片

其他 2018-11-10 11:19:55 阅读次数: 0

版权声明：本文为博主原创文章，转载请备注https://blog.csdn.net/travelerwz。 https://blog.csdn.net/Travelerwz/article/details/83409369

requests+BeautifulSoup爬取网页图片

最近一直抽时间在看requests+BeautifulSoup爬取网页内容这一块的内容，所以，打算把自己看的总结一下，分享也是一种学医，给自己做做笔记。

1.首先，我们看一下requests库
requests库主要用于访问网页，这个网上资源比较多，所以我就不多说了，我这直间给出一个连接，大家可以看看。
快速上手requests
2.BeautifulSoup库
这个是一个强大的解析工具，它借助网页的结构和属性等特性来解析网页，而且可以方便的提取网页的元素，非常好用，入门教程我觉得崔庆才老师的文章很值的学习，给出链接崔庆才BeautifulSoup；
我主要说一下提取元素的技巧，因为我刚开始看的时候没有注意到这一点；
BeautifulSoup的find_all(‘tag’)方法，是按照tag取出来的tag标签及其内容。那如何取到标签的内容，或者子标签的内容。实际上这还是一个DOM的层级结构问题。
之所有要选取到提取h4标签，而不是直接find_all(‘a’)，是因为网页上的a标签很多，一些不是我们所需要提取的内容。

<h1 class="title">
    <a target="111" href="4444">123</a>
</h4>

我随便写一个例子，我们要提取a标签里面的内容的话，应该这样做：

links = soup.find_all('h1') 
for link in links:
       print link.a.get_text()
       print link.a['href']

这样我们成功的提取到了a标签中href的内容，href 是一种属性。
这个就是我们使用这两种库的时候一个小小的技巧，当然也很重要。

3.我们来爬取一个网页的图片的链接
当然，我们获取了网片的链接，就可以欢快的下载图片了
我的代码的注释会比较多一些。
在这里插入图片描述

代码：

import requests
from bs4 import BeautifulSoup
import os
#获取html
f = requests.get('http://tieba.baidu.com/p/2166231880').text
s = BeautifulSoup(f,'lxml')
s_imgs = s.find_all('img',attrs={'class':'BDE_Image'})
for s_img in s_imgs:
    img_url = s_img['src']
    print(img_url)

这个实现了爬取图片的url；

猜你喜欢

转载自blog.csdn.net/Travelerwz/article/details/83409369

requests与BeautifulSoup爬取网页图片

python使用requests和BeautifulSoup爬取网页乱码问题

requests与BeautifulSoup结合爬取网页数据应用

用requests和BeautifulSoup爬取静态网页

python获取网页page数，同时按照href批量爬取网页（requests+BeautifulSoup）

动态网页图片爬取【requests + re】

python应用学习（五）——requests爬取网页图片

requests+beautifulsoup爬取豆瓣图书

python爬虫爬取招聘（ requests，BeautifulSoup）

Python爬虫学习三------requests+BeautifulSoup爬取简单网页

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

python爬虫——利用requests库BeautifulSoup定向爬取网页内容写入txt文件

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片—代码完善

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页

Python爬虫实战：使用Requests和BeautifulSoup爬取网页内容

python使用requests和BeautifulSoup包爬取Pixiv图片--指定tag下的所有作品

requests + BeautifulSoup + urllib 爬取并下载网站图片到本地（二）

requests + BeautifulSoup + urllib 爬取并下载网站图片到本地（一）

利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式

爬取网页图片

Python使用BeautifulSoup爬取网页信息

xpath和beautifulsoup爬取网页的demo

用requests爬取图片

python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]

使用BeautifulSoup去爬取豆瓣图片

爬取简书图片(使用BeautifulSoup)

python requests 简单网页文本爬取

python的requests模块爬取网页内容

requests与BeautifulSoup爬取嗅事百科

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)