爬取前程无忧数据 - 代码天地

爬取前程无忧数据

其他 2018-06-20 13:04:42 阅读次数: 2

'''
@author:zl
@contact:
@site: https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,2.html
'''
# _*_ coding:utf-8 _*_
import requests
from bs4 import BeautifulSoup
import re
import time
from pymongo import MongoClient
import xlwt
headers = {
    'user-agent': "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36" ,
    'accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    'accept-encoding': "gzip, deflate, br",
    'accept-language': "zh-CN,zh;q=0.9",
    'cache-control': "max-age=0",
    'upgrade-insecure-requests': "1",
    'Connection': 'keep-alive',
    'Host': "search.51job.com",

}
# 获取源码
def get_content(page):
    url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,'+str(page)+'.html'
    req = requests.get(url,headers=headers)
    html = req.content.decode('gbk')
    return html
# 获取字段
def get(html):
    reg = re.compile(r'<p class="t1 ">.*?<a target="_blank" title="(.*?)" .*?<span class="t2"><a target="_blank" title="(.*?)" .*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*?<span class="t5">(.*?)</span>',re.S)
    items = re.findall(reg,html)
    return items
# 爬到的内容写入excel
def excel_write(items,index):
    for item in items: # 职位信息
        for i in range(0,5):
            print(item[i])
            ws.write(index, i, item[i])  # 行，列，数据
        index+=1
if __name__ == '__main__':
    newTable = "test.xls"  # 表格名称
    wb = xlwt.Workbook(encoding='utf-8')  # 创建excel文件，声明编码
    ws = wb.add_sheet('sheet1')  # 创建表格
    headData = ['招聘职位', '公司', '地址', '薪资', '日期']  # 表头信息
    for colnum in range(0,5):
        ws.write(0,colnum,headData[colnum],xlwt.easyxf('font: bold on'))
    # 多页处理，下载到文件
    for each in range(1,10):
        index = (each-1)*50+1
        excel_write(get(get_content(each)),index)
    wb.save(newTable)

猜你喜欢

转载自www.cnblogs.com/zhanglin123/p/9203132.html

爬取前程无忧数据

Scrapy爬取前程无忧

scrapy框架爬取前程无忧

Python 爬取前程无忧最新招聘数据 matplotlib数据分析与可视化

Python学习（二）：爬取51job(前程无忧)网站数据

Python3爬取前程无忧数据分析工作并存储到MySQL

Python之爬取前程无忧数据分析工作并存储到MySQL

【51Job数据爬取日志】【小知识点】前程无忧URL编码的转换

【51Job数据爬取日志】前程无忧URL请求字段分析

scrapy-redis 分布式爬虫爬取前程无忧的岗位数据

最新 Python3 爬取前程无忧招聘网 mysql和excel 保存数据

pyecharts安装和爬取前程无忧招聘网站数据分析（二）

R语言爬取前程无忧网招聘职位

python爬虫--爬取前程无忧的工作岗位

python scrapy爬取前程无忧招聘信息

python爬取前程无忧热门城市职位信息

四十三、Scrapy 爬取前程无忧51jobs

Python Scrapy 爬取前程无忧招聘网

使用scrapy爬取前程无忧51job网站

scrapy爬虫进阶案例--爬取前程无忧招聘信息

爬取前程无忧51job海量职位信息

Python爬虫：爬取招聘网站系列 - 前程无忧

【51Job数据爬取日志】【小知识点】前程无忧URL编码处理的代码

第四篇 - 爬取前程无忧python相关工作

python爬取前程无忧分析一波机械职位信息

一个简单Python爬虫实例（爬取的是前程无忧网的部分招聘信息）

Scrapy爬取前程无忧（51job）相关职位信息

requests+bs4+正则爬取前程无忧招聘信息进阶版

Python爬取前程无忧网站上python的招聘信息

爬虫实战：爬取前程无忧（51job）python相关职位信息

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)