初级爬虫(一) requests模块实现网页批量图片爬取 - 代码天地

初级爬虫(一) requests模块实现网页批量图片爬取

其他 2018-12-28 18:04:48 阅读次数: 0

版权声明：欢迎copy，只求有用 https://blog.csdn.net/muzhe1024/article/details/85239312

思路分析:
已知网页:如http://www.jiangxian.gov.cn/N20180821093426.html
1, 检查网页分析网页中图片的地址形式,
2,获取网页内容,正则匹配出所有图片的地址,
3,拼接地址生成列表
4,循环列表,生成图片地址的文本文件
5,循环列表,取出每个地址,获得地址内容
6,写入到文件夹

难点:首先是获取每个图片的地址____这是一个获取过程
再次获取图片____相当于获取另一个网页的过程

代码如下:

import requests
import re

#请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
}
#基础地址
url = "http://www.jiangxian.gov.cn/N20180821093426.html"
#从网页右键检查看到的图片地址格式
# <P align=center><IMG src="/upload/20180821100128526.jpg"></P>
#正则分析: src="(/upload/.*?)
#初次获取原始网页内容
response = requests.get(url, headers=headers)
#输出网页内容
htm = response.content.decode('gbk')
#在网页内容中匹配图片的标签(注意正则的引号,外单内双)
list1 = re.findall('src="(/upload/.*?)"', htm)
#拼接图片真实地址,可以在浏览器中点击图片查看地址拼接形式,列表推导式
list2 = ['http://www.jiangxian.gov.cn/' + i for i in list1]

#将地址保存成文本,注意需要循环遍历
with open('tu/tu.txt', 'w')as f:
    for t in list2:
        f.write(t+'\n')

#然后继续遍历列表2, 重新获取网页内容,分别提取每个网页的内容输出成图片
for u in list2:
    resp = requests.get(u, headers=headers)
    img = resp.content
    #命名 (难点是字符串和int类型的值之间的转换)
    name = 'tu' + str(list2.index(u)) + '.jpg'
    # print(name)测试
    #拼接图片库地址
    path = './tu/' + name

    File = open(path, 'wb')
    File.write(img)
    File.flush()
    File.close()


    #写入的另一种形式
    # with open(path, 'wb')as w:
    #     w.write(img)

#问题: 怎么实现边读取边写入?运行发现是全部读取完后一次性写入 ,不科学啊 ,目前不知道怎么解决

结果

猜你喜欢

转载自blog.csdn.net/muzhe1024/article/details/85239312

初级爬虫(一) requests模块实现网页批量图片爬取

python爬虫：批量爬取网页图片

python初级实战系列教程《一、爬虫之爬取网页、图片、音视频》

【爬虫】爬取网页图片

python爬虫笔记（三）requests模块深入—网络图片的爬取和存储

python爬虫---实现项目(一) Requests爬取HTML信息

node：爬虫爬取网页图片

Python——网络爬虫（爬取网页图片）

Python爬虫入门——爬取网页图片

python爬虫爬取网页图片

Python爬虫——利用requests模块爬取妹子图

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

Python爬虫学习（一）使用Requests和正则表达式爬取简单网页

Python爬虫入门——requests爬取单张图片/视频

Python 网页爬虫爬取网页图片demo

Python使用requests爬取一个网页并保存

Python网络爬虫与信息提取（一）——Requests库的安装、Requests库的get()方法、爬取网页的通用代码框架

爬虫入门——静态网页爬取：批量获取高清壁纸

图片爬虫工具，可以爬取指定网页的图片

网页图片爬虫工具——从谷歌必应上爬取图片

node.js 爬虫实现爬取网页图片并保存到本地

python爬虫-简单的图片爬取实现

Python网页爬虫练习：requests库&Beautiful爬取bilibili网页信息

python实战项目一：requests爬取淘宝图片

爬虫-----selenium模块自动爬取网页资源

爬虫-某直播平台图片批量爬取url并下载

简单的python爬虫教程：批量爬取图片

【爬虫入门】批量爬取百度图片

【python爬虫实战】批量爬取站长之家的图片

【Python爬虫】批量爬取图片的简单案例

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)