爬虫抓取网页图片 - 代码天地

爬虫抓取网页图片

其他 2019-04-15 18:22:21 阅读次数: 0

版权声明：作者：小白 https://blog.csdn.net/weixin_43687366/article/details/88958235

抓取网页的全部图片！然后再逐一保存！


import requests
from lxml import etree
#面向对象编程
class Spider(object):
	def __init__(self):
		#反爬虫措施，加请求头部信息，这个是在network中查看的
		self.headers={
			'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/537.36',

			'Referer': 'https://www.mzitu.com/'

		}

	def start_request(self):
		#1、获取整体网页数据 requests
		for i in range(1,204):
			print("==========正在抓取%s页========="%i)
			res = requests.get("https://www.mzitu.com/page/"+str(i)+"/",headers=self.headers)
			html = etree.HTML(res.content.decode())
			self.xpath_data(html)
			
			
	def xpath_data(self,html):
		#抽取想要的数据，标题 图片 xpath
		#图片
		src_list = html.xpath('//ul[@id="pins"]/li/a/img/@data-original')
		#标题
		alt_list = html.xpath('//ul[@id="pins"]/li/a/img/@alt')
		for src,alt in zip(src_list,alt_list):
			file_name = alt +'.jpg'
			res = requests.get(src,headers=self.headers)
			print("正在抓取图片："+file_name)
			try:
				with open(file_name,"wb") as f:
					f.write(res.content)
			except:
				print("==========文件名有误！=========")
	


spider = Spider()
spider.start_request()

里面代码基本上已经标注了！

下面直接上结果了

猜你喜欢

转载自blog.csdn.net/weixin_43687366/article/details/88958235

爬虫抓取网页图片

爬虫-简单抓取网页图片

Python爬虫之网页图片抓取

python爬虫-- 抓取网页、图片、文章

python爬虫之抓取网页中的图片到本地

Python之多线程爬虫抓取网页图片

Python爬虫学习笔记一：简单网页图片抓取

Python3简单爬虫抓取网页图片

Java抓取网页爬虫

java 抓取网页图片

爬虫抓取图片

python3爬虫(三)--抓取单个网页的文章标题以及其链接和抓取单个网页图片

爬虫学习----静态网页抓取

使用爬虫抓取网页内容

抓取网页上的图片(一)

用python抓取网页的图片

由零开始学习python爬虫，抓取网页图片、文章的基本操作！

Python爬虫学习笔记二：百度贴吧网页图片抓取

python网络爬虫抓取图片

网页爬虫抓取URL简单实现

网络爬虫(网络蜘蛛)之网页抓取

Python爬虫1：简单抓取网页

【Python爬虫】批量抓取网页上的视频

Python爬虫抓取+分析+提取网页信息

java算法-网络爬虫抓取网页并保存

Python写爬虫——抓取网页并解析HTML

python网络爬虫（1）静态网页抓取

Python爬虫从端到端抓取网页

使用python实现简单网页图片抓取

Python3 抓取网页中的图片

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)