Résumé de la technologie des graphiques en nuages de mots ---- visualisation des mégadonnées

# -*- coding: utf-8 -*-

Cette ligne de code précise que le format d'encodage du fichier source Python est UTF-8, ce qui garantit qu'aucun problème d'encodage ne surviendra lors de la lecture et du traitement de fichiers contenant des caractères chinois.

import jieba
import matplotlib.pyplot as plt
import matplotlib.colors as colors
from wordcloud import WordCloud, STOPWORDS
from PIL import Image
import numpy as np

Ce code importe les bibliothèques python requises. jieba est utilisé pour la bibliothèque de segmentation de mots chinois, matplotlib.pyplot, matplotlib.colors sont utilisés pour dessiner des graphiques et des mappages de couleurs, et WordCloud est utilisé pour générer des diagrammes de nuages ​​de mots. STOPWORDS est une collection utilisée pour filtrer les mots dénués de sens, PIL est une bibliothèque d'imagerie Python utilisée pour ouvrir et traiter des images, et numpy est utilisé pour traiter les données d'image.

text = open("text.txt", encoding='utf-8').read()
text = text.replace('\n', "").replace("\u3000", "")
text_cut = jieba.lcut(text)
text_cut = ' '.join(text_cut)

Ces codes permettent de lire le fichier "text.txt" contenant le texte de l'article et de le stocker dans la variable texte. Dans le même temps, le programme utilise la fonction replace() pour supprimer les caractères de nouvelle ligne et les caractères d'espace spécial dans l'article. Ensuite, le programme utilise la bibliothèque jieba pour segmenter l'article et enregistrer les résultats de segmentation dans la liste text_cut. Enfin, le programme convertit la liste text_cut en chaîne pour un traitement ultérieur.

stopwords = set()
content = [line.strip() for line in open('hit_stopwords.txt', 'r').readlines()]
stopwords.update(content)

Ces codes sont utilisés pour lire le fichier "hit_stopwords.txt" contenant des mots absurdes et l'enregistrer dans la collection de mots vides. Tout d'abord, le programme crée une collection vide de mots vides. Le programme utilise ensuite une boucle for pour lire chaque ligne du fichier et utilise la fonction strip() pour supprimer les espaces à la fin de la ligne. Enfin, le programme utilise la fonction update() pour ajouter tous les mots absurdes à la collection de mots vides.

background = Image.open("dnn.jpg").convert('RGB')
graph = np.array(background)
colormaps = colors.ListedColormap(['#FF0000', '#FF7F50', '#FFE4C4'])
wordcloud = WordCloud(scale=4,
                      font_path="C:/Windows/Fonts/simhei.ttf",
                      background_color="white",
                      mask=graph,
                      colormap=colormaps,
                      relative_scaling=0.1,
                      stopwords=stopwords).generate(text_cut)

Ces codes sont utilisés pour générer des tracés de nuages ​​de mots. Tout d'abord, le programme utilise la bibliothèque PIL pour ouvrir l'image nommée "dnn.jpg" et la convertir au format RVB. Ensuite, le programme utilise la bibliothèque numpy pour convertir l'image sous forme de tableau et l'enregistre dans le graphique variable. Cette image servira d’arrière-plan à l’image du nuage de mots. Ensuite, le programme crée un objet nuage de mots nommé wordcloud et définit certains paramètres, notamment :
échelle : le rapport de mise à l'échelle de l'image du nuage de mots. font_path : Le chemin d’accès au fichier de police utilisé pour afficher les caractères chinois. background_color : image de nuage de mots

Je suppose que tu aimes

Origine blog.csdn.net/m0_56898461/article/details/130174057
conseillé
Classement