Resumen de la tecnología de gráficos de nube de palabras ---- visualización de big data

# -*- coding: utf-8 -*-

Esta línea de código especifica que el formato de codificación del archivo fuente de Python es UTF-8, lo que garantiza que no se producirán problemas de codificación al leer y procesar archivos que contengan caracteres chinos.

import jieba
import matplotlib.pyplot as plt
import matplotlib.colors as colors
from wordcloud import WordCloud, STOPWORDS
from PIL import Image
import numpy as np

Este código importa las bibliotecas de Python necesarias. jieba se usa para la biblioteca de segmentación de palabras chinas, matplotlib.pyplot, matplotlib.colors se usan para dibujar gráficos y mapeos de colores, y WordCloud se usa para generar diagramas de nubes de palabras. STOPWORDS es una colección que se usa para filtrar palabras sin sentido, PIL es una biblioteca de imágenes de Python que se usa para abrir y procesar imágenes, y numpy se usa para procesar datos de imágenes.

text = open("text.txt", encoding='utf-8').read()
text = text.replace('\n', "").replace("\u3000", "")
text_cut = jieba.lcut(text)
text_cut = ' '.join(text_cut)

Estos códigos se utilizan para leer el archivo "text.txt" que contiene el texto del artículo y almacenarlo en la variable texto. Al mismo tiempo, el programa utiliza la función reemplazar() para eliminar caracteres de nueva línea y espacios especiales en el artículo. Luego, el programa utiliza la biblioteca jieba para segmentar el artículo y guardar los resultados de la segmentación en la lista text_cut. Finalmente, el programa convierte la lista text_cut en una cadena para su posterior procesamiento.

stopwords = set()
content = [line.strip() for line in open('hit_stopwords.txt', 'r').readlines()]
stopwords.update(content)

Estos códigos se utilizan para leer el archivo "hit_stopwords.txt" que contiene palabras sin sentido y guardarlo en la colección de palabras vacías. Primero, el programa crea una colección vacía de palabras vacías. Luego, el programa usa un bucle for para leer cada línea del archivo y usa la función strip() para eliminar espacios al final de la línea. Finalmente, el programa utiliza la función update() para agregar todas las palabras sin sentido a la colección de palabras vacías.

background = Image.open("dnn.jpg").convert('RGB')
graph = np.array(background)
colormaps = colors.ListedColormap(['#FF0000', '#FF7F50', '#FFE4C4'])
wordcloud = WordCloud(scale=4,
                      font_path="C:/Windows/Fonts/simhei.ttf",
                      background_color="white",
                      mask=graph,
                      colormap=colormaps,
                      relative_scaling=0.1,
                      stopwords=stopwords).generate(text_cut)

Estos códigos se utilizan para generar gráficos de nubes de palabras. Primero, el programa utiliza la biblioteca PIL para abrir la imagen denominada "dnn.jpg" y convertirla al formato RGB. Luego, el programa usa la biblioteca numpy para convertir la imagen en forma de matriz y la guarda en el gráfico variable. Esta imagen servirá como fondo para la imagen de la nube de palabras. A continuación, el programa crea un objeto de nube de palabras llamado nube de palabras y establece algunos parámetros, entre ellos:
escala: la relación de escala de la imagen de la nube de palabras. font_path: la ruta al archivo de fuente utilizado para mostrar caracteres chinos. background_color: imagen de nube de palabras

Supongo que te gusta

Origin blog.csdn.net/m0_56898461/article/details/130174057
Recomendado
Clasificación