一维二维数据格式化和处理,wordcloud库使用

一维数据格式化和处理

一维数据:由对等关系的有序或无序数据构成,采用线性方式组织

一维数据的表示

如果数据间有序:使用列表类型

ls = [3.1398, 3.1349, 3.1376]

列表类型可以表达一维有序数据 - for循环可以遍历数据,进而对每个数据进行处理

如果数据间无序:使用集合类型

st = {3.1398, 3.1349, 3.1376}

集合类型可以表达一维无序数据 - for循环可以遍历数据,进而对每个数据进行处理

一维数据的读入处理

从空格分隔的文件中读入数据

从特殊符号分隔的文件中读入数据 

采用空格分隔方式将数据写入文件 

采用特殊分隔方式将数据写入文件 

二维数据格式化和处理

二维数据的表示

二维数据一般可以理解为我们说的表格

列表类型可以表达二维数据,使用二维列表

[[3.1398, 3.1349, 3.1376], [3.1413, 3.1404, 3.1401] ]

使用两层for循环遍历每个元素

外层列表中每个元素可以对应一行,也可以对应一列

CSV格式与二维数据存储

CSV: Comma-Separated Values

国际通用的一二维数据存储格式,一般.csv扩展名

每行一个一维数据,采用逗号分隔,无空行

Excel和一般编辑软件都可以读入或另存为csv文件 

左边为一个表格,存储为csv格式变成了右边

csv文件的规则

如果某个元素缺失,逗号仍要保留

二维数据的表头可以作为数据存储,也可以另行存储

逗号为英文半角逗号,逗号与数据之间无额外空格 

 

 wordcloud库使用

wordcloud库的安装

(cmd命令行) pip install wordcloud

wordcloud库基本使用 

wordcloud库把词云当作一个WordCloud对象

wordcloud.WordCloud()代表一个文本对应的词云

可以根据文本中词语出现的频率等参数绘制词云

词云的绘制形状、尺寸和颜色都可以设定

w = wordcloud.WordCloud()

以WordCloud对象为基础

配置参数、加载文本、输出文件

 配置对象参数

 

政府工作报告词云 

问题分析

直观理解政策文件

需求:对于政府工作报告等政策文件,如何直观理解?

体会直观的价值:生成词云 & 优化词云

政府工作报告等文件 -> 有效展示的词云

基本思路

- 步骤1:读取文件、分词整理 - 步骤2:设置并输出词云 - 步骤3:观察结果,优化迭代

https://python123.io/resources/pye/新时代中国特色社会主义.txt

 https://python123.io/resources/pye/关于实施乡村振兴战略的意见.txt

#!/usr/bin/env python
# -- coding: utf-8 --
# @Time : 2023/4/6 19:57
# @File :  政府工作报告词云 .py
import jieba
import wordcloud
f = open("关于实施乡村振兴战略的意见.txt", "r", encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)
txt = " ".join(ls)
w = wordcloud.WordCloud( font_path = "msyh.ttc",\
width = 1000, height = 700, background_color = "white", \
)
w.generate(txt)
w.to_file("grwordcloud.png")

 生成更有型的词云

wordcloud库提供了mask参数,通过覆盖的方式,可以生成任意形状的词云。比如:你要生成五角星,那么你就要提供背景为白色的五角星图片

猜你喜欢

转载自blog.csdn.net/weixin_64612659/article/details/129989963