一维二维数据格式化和处理，wordcloud库使用

一维数据格式化和处理

一维数据：由对等关系的有序或无序数据构成，采用线性方式组织

一维数据的表示

如果数据间有序：使用列表类型

ls = [3.1398, 3.1349, 3.1376]

列表类型可以表达一维有序数据 - for循环可以遍历数据，进而对每个数据进行处理

如果数据间无序：使用集合类型

st = {3.1398, 3.1349, 3.1376}

集合类型可以表达一维无序数据 - for循环可以遍历数据，进而对每个数据进行处理

一维数据的读入处理

从空格分隔的文件中读入数据

从特殊符号分隔的文件中读入数据

采用空格分隔方式将数据写入文件

采用特殊分隔方式将数据写入文件

二维数据格式化和处理

二维数据的表示

二维数据一般可以理解为我们说的表格

列表类型可以表达二维数据，使用二维列表

[[3.1398, 3.1349, 3.1376], [3.1413, 3.1404, 3.1401] ]

使用两层for循环遍历每个元素

外层列表中每个元素可以对应一行，也可以对应一列

CSV格式与二维数据存储

CSV: Comma-Separated Values

国际通用的一二维数据存储格式，一般.csv扩展名

每行一个一维数据，采用逗号分隔，无空行

Excel和一般编辑软件都可以读入或另存为csv文件

左边为一个表格，存储为csv格式变成了右边

csv文件的规则

如果某个元素缺失，逗号仍要保留

二维数据的表头可以作为数据存储，也可以另行存储

逗号为英文半角逗号，逗号与数据之间无额外空格

wordcloud库使用

wordcloud库的安装

(cmd命令行) pip install wordcloud

wordcloud库基本使用

wordcloud库把词云当作一个WordCloud对象

wordcloud.WordCloud()代表一个文本对应的词云

可以根据文本中词语出现的频率等参数绘制词云

词云的绘制形状、尺寸和颜色都可以设定

w = wordcloud.WordCloud()

以WordCloud对象为基础

配置参数、加载文本、输出文件

配置对象参数

政府工作报告词云

问题分析

直观理解政策文件

需求：对于政府工作报告等政策文件，如何直观理解？

体会直观的价值：生成词云 & 优化词云

政府工作报告等文件 -> 有效展示的词云

基本思路

- 步骤1：读取文件、分词整理 - 步骤2：设置并输出词云 - 步骤3：观察结果，优化迭代

https://python123.io/resources/pye/新时代中国特色社会主义.txt

https://python123.io/resources/pye/关于实施乡村振兴战略的意见.txt

#!/usr/bin/env python
# -- coding: utf-8 --
# @Time : 2023/4/6 19:57
# @File :  政府工作报告词云 .py
import jieba
import wordcloud
f = open("关于实施乡村振兴战略的意见.txt", "r", encoding="utf-8")
t = f.read()
f.close()
ls = jieba.lcut(t)
txt = " ".join(ls)
w = wordcloud.WordCloud( font_path = "msyh.ttc",\
width = 1000, height = 700, background_color = "white", \
)
w.generate(txt)
w.to_file("grwordcloud.png")

生成更有型的词云

wordcloud库提供了mask参数，通过覆盖的方式，可以生成任意形状的词云。比如：你要生成五角星，那么你就要提供背景为白色的五角星图片