小项目爬虫爬取图片 --站长素材网 - 代码天地

小项目爬虫爬取图片 --站长素材网

编程语言 2019-04-04 20:22:51 阅读次数: 0

要点： xpath
懒加载问题

t urllib.request
import urllib.parse
import time
from lxml import etree
import os

def handle_request(url,page):
# 第一页页码url单独判断
if page==1:
url = url.format(’’)
else:
url = url.format(’_’+str(page))
# print(url)
headers = {
‘User-Agent’ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Maxthon/5.2.3.4000’
}
request = urllib.request.Request(url=url,headers=headers)
return request
def download_img(image_src):
dirpath = ‘xinggan’
if not os.path.exists(dirpath):
os.mkdir(dirpath)
# 文件名
filename = os.path.basename(image_src)
# 搞图片路径
filepath = os.path.join(dirpath,filename)
# 发送请求保存图片
headers = {
‘User-Agent’ : ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Maxthon/5.2.3.4000’
}
request = urllib.request.Request(url=image_src,headers=headers)
response = urllib.request.urlopen(request)
with open(filepath,‘wb’) as fp:
fp.write(response.read())

def parse_content(content):
# 解析内容获取图片
tree = etree.HTML(content)
image_list = tree.xpath(’//div[@id=“container”]/div/div/a/img/@src2’)
# print(image_list)
# print(len(image_list))
for image_src in image_list:
download_img(image_src)
def main():
url = ‘http://sc.chinaz.com/tupian/xingganmeinvtupian{}.html’
# url = http://sc.chinaz.com/tupian/xingganmeinvtupian_3.html
start_page = int(input(‘请输入起始页码：’))
end_page = int(input(‘请输入结束页码：’))
for page in range(start_page,end_page+1):
request = handle_request(url,page)
content = urllib.request.urlopen(request).read().decode()
parse_content(content)
time.sleep(2)

if name == ‘main’:
main()

猜你喜欢

转载自blog.csdn.net/weixin_36506731/article/details/89026612

小项目爬虫爬取图片 --站长素材网

爬虫项目：scrapy爬取昵图网全站图片

Python爬虫练手小项目：爬取穷游网酒店信息

Python爬虫之xpath 开启多线程爬取素材网图片-xpath应用、多线程应用、批量下载

icon图片素材网

Python基础项目——利用Python爬虫爬取淘宝网某类商品的图片

爬虫小项目（二）利用selenium爬取豆瓣电影

爬虫小项目之爬取赛尔号

Python 爬虫爬取煎蛋网图片

scrapy爬取站长素材

【python爬虫实战】批量爬取站长之家的图片

爬取贴吧小项目

python爬虫之——爬取煎蛋网图片

Python爬虫爬取煎蛋网图片代码实例

爬虫小项目（一）淘宝

Python爬虫实战小项目

python学习————爬虫小项目

爬虫小项目（四）利用多进程和ajax技术爬取堆糖

爬虫小项目（三）--爬取bilibili并存入数据库

网络爬虫-使用Scrapy爬取千库网素材

python3爬虫实践(正则+xpath 站长素材免费简历模板爬取)

图片素材网站

豆瓣Top250数据爬取小项目

Python爬取千图网PS素材图片

最好用的6个图片素材网，高清无水印、免费下载、访问流畅。

python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索

ppt素材网

爬虫小项目！适合有基础的！爬取葡萄酒评分！哪个阶段和那种酒呢

前后端分离的爬虫小项目

Python小项目——爬虫东方财富的文章

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)