爬虫实战：爬取前程无忧（51job）python相关职位信息 - 代码天地

爬虫实战：爬取前程无忧（51job）python相关职位信息

其他 2020-06-19 00:59:41 阅读次数: 0

import requests
from bs4 import BeautifulSoup
import re
import time

requests.adapters.DEFAULT_RETRIES = 3
strat_url = 'https://search.51job.com/list/030000%252C00,000000,0000,00,9,99,python,2,1.html'
ua = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
resp = requests.get(strat_url,headers = ua)
resp.encoding = 'gb2312'
pages = int(re.findall(r'共(\d+)页',resp.text)[0]) #匹配总页数，确定循环次数
info_list = [] 

def get_info(url):
    resp = requests.get(url,headers = ua)
    resp.encoding = 'gb2312'
    soup = BeautifulSoup(resp.text,'lxml')
    resultList = soup.find(id="resultList")
    infos = resultList.find_all(class_='el')
    for info in infos:
        t1 = info.find(class_='t1').text.strip()
        t2 = info.find(class_='t2').text.strip()
        t3 = info.find(class_='t3').text.strip()
        t4 = info.find(class_='t4').text.strip()
        t5 = info.find(class_='t5').text.strip()
        format_str = '{0}\t{1}\t{2}\t{3}\t{4}'.format(t1,t2,t3,t4,t5)
#        print(format_str)
        info_list.append(format_str)

if __name__=='__main__':
    for i in range(1,pages+1):
        url = 'https://search.51job.com/list/030000%252C00,000000,0000,00,9,99,python,2,'+str(i)+'.html'
        print('\r当前进度：{0}/{1}'.format(i,pages),end = '')
        get_info(url)
        time.sleep(0.2)
    with open('F:/前程无忧广东省python.txt','w',encoding='utf8') as f:
        f.write('\n'.join(info_list))
    print('爬取结束！')

猜你喜欢

转载自blog.csdn.net/qq_36936510/article/details/88842111

爬虫实战：爬取前程无忧（51job）python相关职位信息

爬取前程无忧51job海量职位信息

Scrapy爬取前程无忧（51job）相关职位信息

爬虫爬取51job python职位相关信息

使用scrapy爬取前程无忧51job网站

爬取51job职位信息

爬虫实战-使用Webmagic爬取51job的职位信息

51job（前程无忧官网）1万条招聘信息的爬取

Python学习（二）：爬取51job(前程无忧)网站数据

[Python] 前程无忧招聘网爬取软件工程职位网络爬虫 https://www.51job.com

Python3.6爬虫集合 xpath bs4 re 爬51job前程无忧招聘信息豆瓣音乐等等

Python爬虫之51job招聘数据信息爬取实战

pthon 爬虫使用requests爬取51job职位信息

【51Job数据爬取日志】【小知识点】前程无忧URL编码的转换

【51Job数据爬取日志】前程无忧URL请求字段分析

前程无忧51Job岗位爬取~~新手路过，请多指教

python爬取前程无忧热门城市职位信息

【51Job数据爬取日志】【小知识点】前程无忧URL编码处理的代码

Python爬虫爬取51job招聘网站

python 爬虫如何通过scrapy框架简单爬取网站信息--以51job为例

python爬虫之XPath（爬取51job招聘信息）

scrapy由浅入深(二) 爬取51job职位薪资信息

python爬取前程无忧分析一波机械职位信息

【Python】Python 爬虫实战之某1job职位信息爬取

selenium对51job进行职位爬虫

前程无忧爬虫实战（通过输入关键字爬取任意职位并自动保存为.csv文本）

爬虫实战-使用Springboot+WebMagic爬取51job数据

scrapy爬虫进阶案例--爬取前程无忧招聘信息

使用webmagic爬取51job网站的招聘信息

java 爬取51job招聘信息

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)