Procesamiento de texto en Python: construcción y análisis de la nube de palabras en Romance of the Three Kingdoms

  • Los principiantes en Python hasta ahora han aprendido inicialmente la sintaxis básica y el funcionamiento de bibliotecas comunes.
  • La nube de palabras "El Romance de los Tres Reinos" se creó recientemente por capricho durante el período de resumen de la experiencia de aprendizaje. El nivel es extremadamente limitado y es solo para registros.
  • Python de autoaprendizaje recomienda encarecidamente el MOOC del profesor Songtian del Instituto de Tecnología de Beijing: programación en lenguaje Python ; la profundidad del material didáctico es muy cómoda, muy adecuada para principiantes sin conocimientos básicos o para audiencias que tienen necesidades de análisis de datos pero no tienen intención de profundizar. profundizar en la tecnología.
  • Lo de arriba es el fondo.

1. Corpus y biblioteca externa:

Corpus en formato txt de texto completo de Romance de los Tres Reinos: Python123.io

Participio de Jieba: Github

Repositorio de WordCloud: Github

2. Código:

import jieba
import  wordcloud as wc
#三国演义.txt

#文本读取
f1=open('datalib/threekingdoms.txt','r',encoding='utf-8')
t1=f1.read()
f1.close()

#文本预处理(同义词合并)
t1=t1.replace('孔明曰','孔明')
t1=t1.replace('玄德曰','玄德')
t1=t1.replace('玄德','刘备')
t1=t1.replace('关公','云长')
t1=t1.replace('云长','关羽')


#结巴分词+过滤单字+去除虚词
ls=jieba.lcut(t1)
ls = [word for word in ls if len(word)>1]
excludes={'不可','却说','二人','不能','次日','左右','主公','于是',
          '今日','天下','大喜','将军','引兵','商议','陛下','都督',
          '不敢','如何','如此','众将','只见','后主','此人','不知',
          '人马','先主','一人','丞相'}
for word in ls:
    if word in excludes:
        ls.remove(word)
txt1=" ".join(ls)

#词云生成
w1=wc.WordCloud(width=1000,height=700,background_color='white',\
                max_words=20,font_path='msyh.ttc')
w1.generate(txt1)
w1.to_file("datalib/3KingWordCloud.png")

4. Generación de nube de palabras

5. Análisis

5.1 Ver la clasificación de roles de "El Romance de los Tres Reinos" en la nube de palabras

  • Protagonistas de nivel A: Liu Bei; Guan Yu; Kong Ming; Cao Cao

La enorme palabra "Liu Bei" en la nube de palabras muestra el estatus indiferente del tío del emperador en "The Romance", y sin duda se revela la línea principal de "respetar a Liu y restringir a Cao".

"Zhuge Liang" y "Guan Yu" son ligeramente inferiores a "Liu Bei" en términos de tamaño de fuente, que sin duda son las armas civiles y militares de Shu Han en la impresión del lector (Zhang Fei: What about me.jpg)

Cao Mengde, como un "villano lindo y encantador" que combina poder, estrategia y arrogancia, aunque es deliberadamente reprimido en la novela, aún puede meterse en las filas del primer escalón, lo que demuestra su encanto. (Sun Quan: Bueno, ya me fui)

  • Protagonistas de nivel B: Zhang Fei, Lu Bu, Zhao Yun

No es difícil ver por el tamaño de la fuente que la frecuencia de aparición de los protagonistas de nivel B es obviamente menor que la de los tres de nivel A.

Como miembro del grupo "Liu Guan Zhang", Zhang Fei fue expulsado del primer escalón, lo cual es realmente miserable.

Aunque Lu Bu fue un papel estrella en la etapa inicial, todavía estaba entre las filas de los protagonistas de nivel B, lo que se puede ver en la meticulosa representación.

Como personaje kanban de los derivados de los Tres Reinos, Zhao Yun está al final del escalón de nivel B en lo que respecta a la frecuencia de apariciones, pero parece que Zilong rara vez se ve en la segunda mitad de la novela. .

  •  Protagonistas de nivel C: Sun Quan, Zhou Yu, Yuan Shao, Sima Yi, Wei Yan, Ma Chao

Hace un momento me quejé de que Zhang Fei fue expulsado de la combinación "Liu Guan Zhang", mientras que Sun Quan, quien es el "jefe de primera generación" de los Tres Reinos, sólo puede ser una "cabeza de gallina" en el escalón de nivel C. Es realmente miserable, pero también coincide en que coexisten imágenes históricas mixtas de "Sun Zhongmou" y "Sun Shiwan".

Zhou Yu y Sima Yi, como personajes principales de Zhuge Liang en las calles temprana y tardía, también han podido unirse a las filas de los protagonistas (Kong Ming, YYDS)

Al principio me sorprendió que Yuan Shao, Ma Chao y Wei Yan aparecieran en Ciyun, pero después de pensarlo, resultó que estos tres hermanos fueron las presentaciones para promover la evolución de la trama en las etapas inicial, media y tardía. ¿respectivamente? (dudoso)

5.2 Observando los términos geográficos en "El Romance de los Tres Reinos" desde la nube de palabras

  • Los nombres de lugares que aparecen en la nube de palabras incluyen Jingzhou, Soochow, Hanzhong.
  • Como foco de controversia al principio y a la mitad de la novela, Jingzhou ha producido innumerables alusiones familiares. No sorprende que ocupe el puesto C en la nube de palabras.
  • Soochow, como único nombre de país, puede vencer a Wei y Shu para aparecer en la nube de palabras. Por un lado, se puede entender que Soochow está jugando tácticas de equipo y colectivismo. Por el contrario, Wei y Shu se basan en la representación. de heroísmo individual color. Por otro lado, la Batalla de Chibi, que tuvo lugar en la tierra natal de Soochow, es un vínculo entre el pasado y el futuro para el desarrollo de la trama de la novela, desde entonces la situación ha pasado del caos al juego de los tres reinos. . Con esta sección, es razonable que Soochow aparezca en la nube de palabras.
  • La aparición de Hanzhong en la nube de palabras es inesperada, presumiblemente porque era el lugar por donde debía pasar la Expedición al Norte de Zhuge Liang en el período posterior. Al comparar Hanzhong con Jingzhou y Soochow, descubrí accidentalmente que las dos primeras ubicaciones tienen obras de energía correspondientes (por ejemplo, Jingzhou: "Shadow"; Soochow: "Red Cliff"), pero Hanzhong rara vez aparece en películas.

5.3 Mirando la guerra en "El Romance de los Tres Reinos" desde la nube de palabras

En los parámetros de generación de la nube de palabras, establezca el umbral en las 20 frecuencias de palabras principales. Las 16 palabras anteriores se han discutido y las 4 palabras restantes son: Shu Bing, Wei Bing, Sargento y Caballo del Ejército. No es difícil de ver. que se pueden formar dos pares de frases respectivamente. .

Shu Bing vs Wei Bing: hay innumerables batallas conocidas en "Romance of the Three Kingdoms", pero Wei Bing y Shu Bing faltan con mayor frecuencia. Mirando hacia atrás en los capítulos donde aparecen con frecuencia estas dos palabras, debería ser durante la Expedición al Norte de Zhuge Liang. También coincide con la línea vertical de la lucha de Wei y Shu por la supremacía en el período posterior.

Sargento contra caballo del ejército: el tamaño de fuente del primero es mucho mayor que el del segundo. Se puede ver que aunque los ministros y generales capaces retratados en la novela saltan con espadas y caballos, la lucha entre los grandes soldados es la base de la batalla.

Supongo que te gusta

Origin blog.csdn.net/u010785550/article/details/108669652
Recomendado
Clasificación