Python 爬取图虫网图片 - 代码天地

Python 爬取图虫网图片

其他 2018-07-06 08:10:39 阅读次数: 0

参考网址：https://www.cnblogs.com/baijifeilong/p/3708198.html

爬取图虫网上关于墨镜的照片

图虫网搜索墨镜之后的网址

https://stock.tuchong.com/search?source=tc_pc_home_search&term=“墨镜”

然后通过urllib 获取页面html的文本，对文本进行分析发现文本中只有图片的ID

从网页中打开图片链接发现链接规律为

由此发现图片的URL可以使用

urllib.request.urlretrieve 获取图片

代码如下：

import re, os, time
import urllib.parse
import urllib.request


def getHtml(url):#取得网页的html纯文本
    return urllib.request.urlopen(url).read().decode('utf-8')


if __name__ == '__main__':
    print('---图虫图片抓取器---')
    for n in range(1, 51):
        pageNo = n
        print(pageNo)
        folder = savepath+str(pageNo)
        if not os.path.exists(folder):
            os.makedirs(folder)
    #url汉字编码处理
        url = 'https://stock.tuchong.com/search?source=tc_pc_home_search&term={}&page={}'.format(urllib.parse.quote('墨镜'), str(pageNo))
    #获取页面HTML文本
        html = getHtml(url)
        x = 0
        pattern = re.compile(r'\d+')
        match = pattern.findall(html)
        num = len(match)
        for i in range(num):
            if len(match[i])>15:
                print(match[i])
                imageurl = "http://p1.pstatp.com/weili/m/"+match[i]+".webp"
                urllib.request.urlretrieve(imageurl,folder+'\\%s.jpg'%x)
                x+=1
        print("第 "+str(pageNo)+" 下载结束")

    print('下载结束。')

猜你喜欢

转载自blog.csdn.net/ywj541726330/article/details/80542366

Python 爬取图虫网图片

python爬取图虫网图库

教你用Python爬取图虫网

Python爬虫教程：图虫网多线程爬取

[Python爬虫]使用Scrapy框架爬取图虫图片

Python爬虫入门教程 10-100 图虫网多线程爬取

Python爬虫入门教程 10-100 图虫网多线程爬取！

python3爬虫-通过requests爬取图虫网

Python爬虫入门教程第十讲：图虫网多线程爬取

Python爬虫之多线程图虫网数据爬取（十六）

Python爬取千图网PS素材图片

python爬取网图

python爬取校花网的图片

Python 爬虫爬取煎蛋网图片

Python爬取煎蛋网图片

python爬取花瓣网图片

Python 爬取斗图啦图片

Python数据爬虫学习笔记（11）爬取千图网图片数据

python爬取千图网图片（出现HTTP Error 403怎么解决）

Python项目实战:爬取斗图网表情包图片

python——爬取图片（shutter图片网）

python根据关键字以及id值爬取图虫网上高质量大图

python学习之爬取煎蛋网美女图

python爬取图

Python爬取堆糖网图片的代码

Python批量爬取堆糖网图片

Python3 urllib 爬取花瓣网图片

Python爬取美空网未登录图片

python爬虫之——爬取煎蛋网图片

Python爬虫爬取煎蛋网图片代码实例

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)