一个简单的爬虫-多线程 - 代码天地

一个简单的爬虫-多线程

其他 2019-02-21 07:01:00 阅读次数: 0

from threading import Thread
from queue import Queue
from fake_useragent import UserAgent
import  requests
from lxml import etree
#爬虫类

class CrawInfo(Thread):
    def __init__(self,url_queue,html_queue):
        Thread.__init__(self)
        self.url_queue = url_queue
        self.html_queue = html_queue
    def run(self):
        headers = {
            "User-Agent":UserAgent().random
        }
        while self.url_queue.empty()==False:
            res = requests.get(self.url_queue.get(),headers=headers)
            # print(res.text)
            if res.status_code==200:
                self.html_queue.put(res.text)

#解析类
class ParseInfo(Thread):
    def __init__(self,html_queue):
        Thread.__init__(self)
        self.html_queue = html_queue

    def run(self):
        while self.html_queue.empty() == False:
            e = etree.HTML(self.html_queue.get())
            span_contents = e.xpath('//div[@class="content"]/span[1]')
            for span in span_contents:
                info = span.xpath('string(.)')
                print(info)

if __name__ == '__main__':
    #存储URL的容器
    url_queue = Queue()
    base_url = 'https://www.qiushibaike.com/text/page/{}/'
    #存储内容的容器
    html_queue = Queue()

    for i in range(1,14):
        new_url = base_url.format(i)
        url_queue.put(new_url)

    craw1_list = []

    #创建一个爬虫
    for i in range(3):
        craw1 = CrawInfo(url_queue,html_queue) #url_queue,html_queue都是公共的
        craw1_list.append(craw1)
        craw1.start()
    for c in craw1_list:
        print(c,'--------->ends')
        c.join()

    for i in range(4):#html_queue是公共的
        parse = ParseInfo(html_queue)
        parse.start()

猜你喜欢

转载自blog.csdn.net/czw0723/article/details/87075536

一个简单的爬虫-多线程

一个简单的爬虫-多线程

一个简单的学习多线程缓存的demo

一个简单Java多线程的应用

C#一个简单多线程的实例

实现一个简单的 php 多线程

一个简单多线程购票Demo

实现一个简单的Kafka多线程消费模型

C++多线程的一个简单应用（C++多线程相关）

简单的多线程爬虫

一个简单的爬虫

Python爬虫--一个简单的爬虫

一个简单的爬虫——新闻爬虫

【Java多线程】自己实现一个简单的线程池(一)

关于在多线程情况下同步爬虫爬取结果的一个例子

【python】分享一个多线程爬虫爬取表情包的代码

【Java多线程】自己实现一个简单的线程池(二)

多线程复制一个文件

一个java多线程测试

爬虫简单入门：第一个简单爬虫

一个简单的例子让你快速了解什么是单线程、多线程和线程池

多线程学习-基础（十）一个synchronized(){/*代码块*/}简单案例分析

Java网络与多线程系列之1：实现一个简单的对象池

写了一个简单的多线程。出了点小状况

java多线程上机题，写一个简单的死锁程序

利用socketserver模块的简单功能来完成一个多线程消息传递

以一个简单的项目来学习面向对象编程(设计模式和多线程)

多线程编程实现一个简单的缓存池系统

Java多线程开发——一个简单的数字加减小例子

用java多线程实现一个简单的水池进出水问题

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)