python爬取拉钩网数据 - 代码天地

python爬取拉钩网数据

其他 2018-08-16 00:11:08 阅读次数: 0

import requests
import re#引用正则匹配
from bs4 import BeautifulSoup
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}#伪装浏览器，制作一个请求头
def local():
    url="https://www.lagou.com/";
    response=requests.get(url,headers = headers);
    result=response.text;
    rep=r' <a href="(.*?)" data-lg-tj-id="4A00" data-lg-tj-no=".*?" data-lg-tj-cid="idnull">(.*?)</a>'
    result=re.findall(rep,result)
    return result

def postion(url):
    response=requests.get(url,headers = headers)
    ggg = [];
    soup = BeautifulSoup(response.text, 'html.parser')
    for news in soup.select('.default_list'):  # 定位
        # print(news)
        place = news.find_all(class_='add')[0].text
        ggg.append(place)
        companyName = news.select('a')[1].text
        ggg.append(companyName)
        companyClass = news.find_all(class_='industry')[0].text.replace(' ', '')
        ggg.append(companyClass)
        companySpeak = news.find_all(class_='li_b_r')[0].text
        ggg.append(companySpeak)
        workMoney = news.find_all(class_='money')[0].text
        ggg.append(workMoney)
        workNeed = news.find_all(class_='li_b_l')[0].text.split('k')[-1]
        ggg.append(workNeed)
        url = news.find_all(class_='position_link')[0]['href']
        ggg.append(url)

    return ggg
for url,title in local():
    result=postion(url)
    for item in result:
        print(item)

还有些不足之处，以后会努力改进，仅供大家参考！

猜你喜欢

转载自blog.csdn.net/liuzemeeting/article/details/79212404

python爬取拉钩网数据

python爬取拉钩网

Python爬取拉钩招聘网数据

二十六、爬取拉钩网Python职位的数据

爬虫（5）：爬取拉钩网数据

Python 爬取拉钩

python 爬取拉钩招聘数据

爬取拉钩网信息

拉钩网————爬取尝试

python3-对拉钩网数据爬取及简单的数据分析

用Python爬取拉钩网招聘职位信息

Python3爬取拉钩网职位，并分析

Python使用request爬取拉钩网信息

Python 爬取拉钩网工作岗位

使用request爬取拉钩网信息

分析ajax爬取拉钩网

爬虫---爬取拉钩信息网

爬虫实战爬取拉钩网

CrawlSpider爬取拉钩

selelinum+PhantomJS 爬取拉钩网职位

拉钩网的两种爬取方法

爬取拉钩网职位信息写入mongodb数据库（小白学爬虫--实战篇1）

小伙利用Python对拉钩网进行反爬机制！

python爬虫：爬取拉勾网数据

Python爬取晨星网的基金数据

Python爬取新闻网数据

Python爬取研招网数据

爬取拉钩破解拉钩反爬机制

[Python]爬拉钩（Python职位）

登录_爬取并筛选拉钩网职位信息_自动提交简历

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)