简易python爬虫爬取boss直聘职位，并写入excel - 代码天地

简易python爬虫爬取boss直聘职位，并写入excel

编程语言 2018-05-24 08:51:09 阅读次数: 3

1，默认城市是杭州，代码如下

#! -*-coding:utf-8 -*-

from urllib import request, parse

from bs4 import BeautifulSoup

import datetime

import xlwt

starttime = datetime.datetime.now()

url = r'https://www.zhipin.com/job_detail/?scity=101210100'

# boss直聘的url地址，默认杭州

def read_page(url, page_num, keyword): # 模仿浏览器

page_headers = {

'Host': 'www.zhipin.com',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36 '

'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',

'Connection': 'keep-alive'

}

page_data = parse.urlencode([ # 浏览器请求的参数

('ka', 'page-'+str(page_num)),

('page', page_num),

('query', keyword)

])

req = request.Request(url, headers=page_headers)

page = request.urlopen(req, data=page_data.encode('utf-8')).read()

page = page.decode('utf-8')

return page

if __name__ == '__main__':

print('**********************************即将进行抓取**********************************')

keyword = input('请输入您要搜索的职位：')

workbook = xlwt.Workbook()

sheet = workbook.add_sheet('sheet1')

i=0

for j in range(1,5):

soup=BeautifulSoup(read_page(url, j, keyword))

for link in soup.select('.company-text'):

sheet.write(i,0,link.get_text())

i=i+1

workbook.save("D:\\resultsLatest.xls")

endtime = datetime.datetime.now()

time = (endtime - starttime).seconds

print('总共用时：%s s' % time)

2，爬取的结果

猜你喜欢

转载自blog.51cto.com/12831900/2119687

简易python爬虫爬取boss直聘职位，并写入excel

python爬虫教程：Scrapy框架爬取Boss直聘网Python职位信息的源码

python 爬虫如何通过selenium简单爬取boss直聘招聘职位信息

Python爬虫案例Demo——Boss直聘信息的爬取

pyspider爬虫框架之boss直聘职位信息爬取

Boss直聘职位信息爬取+分析

python爬取boss直聘源码

Scrapy框架爬取Boss直聘网Python职位信息的源码

Scrapy 简易爬取Boss直聘可设定city job 爬取工作到excel或mysql中

爬虫项目——Scrapy爬取Boss直聘

Python3 + xpath + excel 实现对boss直聘网的爬取

[python爬虫]爬取boss直聘并且存到Mysql数据库里

Python的scrapy之爬取boss直聘网站

Python的scrapy之爬取boss直聘

python 爬取boss直聘招聘信息实现

如何用Python爬取boss直聘职业信息

python使用webdriver爬取boss直聘招聘

爬取boss直聘招聘信息

BOSS直聘招聘信息爬取

用CrwalSpider爬取boss直聘

Python爬虫实战 - 抓取BOSS直聘职位描述和数据清洗

Python爬虫实战 - 抓取BOSS直聘职位描述和数据清洗！

pyspider爬虫框架之boss直聘招聘信息爬取

基于rvest包爬取BOSS直聘-上海里有关“数据分析”的职位信息

Boss直聘网requests多进程爬虫，写入Mysql

Python爬取boss直聘关于python招聘数据，高薪总是让人那么羡慕

Java +selenium 爬Boss直聘中职位信息，薪资水平和职位描述

实战-selenium实现BOSS直聘网信息爬取

scrapy爬取boss直聘实习生数据

scrapy框架爬取Boss直聘，数据存入mysql

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)