斗图网爬虫 - 代码天地

斗图网爬虫

其他 2018-08-01 18:10:04 阅读次数: 0

import urllib
from urllib import request
# from lxml import etree
import os

import time
from lxml import etree
import requests
#导入线程 池模块
from multiprocessing.dummy import Pool as Treadpool

count=0 #变量对已经下载图片数量进行计数
root="G://doutuwang//"#图片保存的根目录文件夹

def get_url(page_url):
    html = requests.get(page_url)

    selector = etree.HTML(html.text)
    "//*[@id='pic-detail']/div/div[2]/div[2]/ul/li/div/div/a[5]/img/@data-original"
    img_div = selector.xpath("//*[@id='pic-detail']/div/div[2]/div[2]/ul/li/div/div")
    print(len(img_div))
    img_url=img_div[0].xpath("./a/img/@data-original")
    for i in img_url:
        # print(str(i))
        download_img(str(i))
    # print(img_url)
        # download_img(img_url)


#将图片保存到本地
def download_img(url):
    global count
    path=root+url.split("/")[-1]#图片的名称
    urllib.request.urlretrieve(url,filename=path)
    print("第",count,"张已经保存完毕!")
    count+=1
if __name__=='__main__':
    page_url_list=[]
    for i in range(1,20):
        page_url = 'http://www.doutula.com/photo/list/?page='+str(i)
        # get_url(page_url)
        page_url_list.append(page_url)
    #创建线程池
    pool=Treadpool(8)
    #线程开始时间
    start_time=time.clock()
    #线程映射
    pool.map(get_url,page_url_list)
    #线程池关闭
    pool.close()
    #主线程等待子线程
    pool.join()
    #线程结束时间
    end_time=time.clock()
    #计算爬去所用的总时间
    time_total=end_time-start_time
    print("总共耗时:",time_total,'s')

猜你喜欢

转载自blog.csdn.net/just_so_so_fnc/article/details/80317033

斗图网爬虫

Python3 网络爬虫(一) 斗图网

python 斗图图片爬虫

python爬虫我是斗图之王

爬虫_斗图啦_表情包下载

爬虫_斗图啦(队列，多线程)

shell爬取斗图网

爬取斗图网的图片

【python--爬虫】斗图啦表情包爬虫

python爬虫之一 —— 爱斗图图包抓取

斗图网斗图全站爬取（用正则表达式re）

爬取斗图网表情包之后斗图会输？不存在的

汇图网爬虫

python爬虫：爬取斗图啦数据

python多线程爬虫+批量下载斗图啦图片

python网络数据抓取三（斗图网图片抓取）

斗图斗不过小伙伴？python多线程爬取斗图网表情包，助你成为斗图帝！

千图网图片爬虫

Python多线程爬虫教你如何快速下载表情包，告别斗图斗不赢的烦恼！

python爬取斗图网中的 “最新套图”和“最新表情”

Python爬虫 | 爬取全书网小说斗罗大陆

python3爬虫 -----爬取斗图息-------www.doutula.com

python多线程爬虫+批量下载斗图啦图片项目（关注、持续更新）

Python爬虫入门教程，多线程采集斗图啦表情包！

Python--爬虫之(斗图啦网站)图片爬取

【Python3 爬虫】U28_多线程爬取斗图啦的表情包

「网络爬虫」自从学会了python，斗图就没怕过谁

Python项目实战:爬取斗图网表情包图片

Python爬虫包图网case

Python爬虫入门实战——彼岸图网

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)