Python 采集51job 软件测试关键词并生成词云 - 代码天地

Python 采集51job 软件测试关键词并生成词云

其他 2021-01-25 19:14:29 阅读次数: 0

先看效果：

从上图可知，目前软件测试岗位需求主要关键词如下：自动化、数据库、经验、计算机相关专业

源码（背景图、51job 软件测试采集结果请自备或联系博主获取）：

import csv

import jieba
import matplotlib.pyplot as plt
import numpy as np
from PIL import Image
from wordcloud import WordCloud, ImageColorGenerator, STOPWORDS

# 1.读取文件内容
csv_file = open(r'examples/wc_cn/job_51_2020-04-16.csv', 'r', encoding='utf-8')
reader = csv.reader(csv_file)
title = next(reader)
content = ''
for line in reader:
    info = line[3]
    info = info.replace('微信分享', '').replace('Python', '').replace('python', '') \
        .replace('工程师', '').replace('职能', '').replace('类别', '').replace('岗位职责', '').replace('职位诱惑', '')\
    .replace('以上学历', '').replace('关键字', '').replace('软件测试', '')
    content += info

csv_file.close()

# 2.jieba分词
# ret = jieba.cut(content, cut_all=True)
ret = jieba.cut_for_search(content)
ret = ' '.join(ret)

# 3.制作词云
bg = np.array(Image.open('mzss.jpg'))  # 背景图片
wc = WordCloud(
    background_color='white',  # 图片背景
    mask=bg,  # 背景图片
    max_words=200,  # 最大分词数量
    stopwords=STOPWORDS,  # 停止的默认词语
    font_path='SIMHEI.TTF',  # 自定义中文字体路径
    max_font_size=100,  # 最大字体尺寸
    random_state=50,  # 随机角度 横竖
    scale=1,
).generate(ret)
icg = ImageColorGenerator(bg)  # 字体随机颜色从bg中截取
plt.imshow(wc)
plt.axis('off')
# plt.show()
plt.savefig(__file__ + '.png')

猜你喜欢

转载自blog.csdn.net/zhu6201976/article/details/107317753

Python 采集51job 软件测试关键词并生成词云

51job词云

关键词采集软件-关键词自动生成器

python 关键词

关键词一键查询51job工作岗位招聘详情(python正则表达式)

discuz关键词采集文章自动发贴软件

关键词采集软件在SEO优化中的应用与效果

Python采集关键词结果辅助写作

关键词词云

关键词网址采集工具

python实现关键词提取

python列表关键词参数的坑

Python——变量和关键词

python中关键词in的用法

用Python提取中文关键词

Python高亮文本中的关键词

python中的yield关键词的初识

python中的global关键词

python关键词匹配利器FlashText

Python 查看关键词，保留字

【Python】通过pyhanlp提取关键词

python实现关键词提取内容

Python实现自动关键词提取

任意关键词采集工具，python采集百度图片到本地！

Python生成词云

python 生成词云

安全渗透测试中的一款免费开源的超级关键词URL采集工具

python爬取豆瓣影评，根据关键词生成词云图

Python词云分析：今年的政府工作报告有哪些关键词？

python学习①|提取女友写的情书关键词制作成词云

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)