使用线程方式对腾讯招聘进行数据抓取

之前说过腾讯招聘的数据爬取,但是效率实在是有一些低,

这样 ,今天我们使用多线程的方式来爬取数据,然后先简单回顾一下多线程

多线程类似于同时执行多个不同程序,多线程运行有如下优点:

使用线程可以把占据长时间的程序中的任务放到后台去处理。
用户界面可以更加吸引人,这样比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度
程序的运行速度可能加快
在一些等待的任务实现上如用户输入、文件读写和网络收发数据等,线程就比较有用了。在这种情况下我们可以释放一些珍贵的资源如内存占用等等。
线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行,必须依存在应用程序中,由应用程序提供多个线程执行控制。

每个线程都有他自己的一组CPU寄存器,称为线程的上下文,该上下文反映了线程上次运行该线程的CPU寄存器的状态。

指令指针和堆栈指针寄存器是线程上下文中两个最重要的寄存器,线程总是在进程得到上下文中运行的,这些地址都用于标志拥有线程的进程地址空间中的内存。

线程可以被抢占(中断)。
在其他线程正在运行时,线程可以暂时搁置(也称为睡眠) -- 这就是线程的退让。

首先,我们先找一下数据接口吧

直接使用xpath来做

先看看能不能获取这个界面

可以观察到,这种数据结构可以拿到,我们接下来使用线程的方式来拿到所有的数据

代码如下:

import random
import threading
import requests
import json


#第一步  写子类  需要继承父类THREAD 类  复写run方法
url = 'https://careers.tencent.com/tencentcareer/api/post/Query?keyword=python&pageIndex=1&pageSize=10'

class Thread_crawl(threading.Thread):

    #初始化
    def __init__(self,page):
        threading.Thread.__init__(self)
        self.page = page

    def run(self):
        url = 'https://careers.tencent.com/tencentcareer/api/post/Query?keyword=python&pageIndex=1&pageSize=10'.format(self.page)
        self.get_content(url=url)

    def get_content(self,url):
        headers = {
            'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6824.400 QQBrowser/10.3.3127.400'
        }
        response = requests.get(url=url,headers=headers).content.decode('utf-8')
        self.get_data(response)
     #解析
    def get_data(self,response):
        data= json.loads(response)
        #提取数据  ,将json字符串转化为标准python字典格式
        data_list = data['Data']['Posts']
        for i in data_list:
            ##岗位名称
            name = i["RecruitPostName"]
            countryname = i["CountryName"]
            Responsibility = i["Responsibility"]
            PostURL = i["PostURL"]

            info = 'name:'+name+ '---'+"CountryName:"+countryname+'---'+"PostURL:"+PostURL+'---'+"Responsibility:"+Responsibility
            with open('job.txt','a',encoding='utf-8') as fp:
                fp.write(info + '\n')

if __name__ == '__main__':
    for page in range(1,61):
        crawl = Thread_crawl(page)
        crawl.start()

猜你喜欢

转载自blog.csdn.net/weixin_44303465/article/details/90143400