[Minería de textos y descubrimiento de conocimientos] 01. Análisis de la evolución del tema de Dream of Red Mansions——Introducción a CiteSpace, un software de análisis de visualización de literatura

Agosto está demasiado ocupado, ¡escribamos un artículo!
Este artículo es la nueva columna del autor a finales de agosto de 2023: "Minería de textos y descubrimiento de conocimientos", que combina principalmente Python, análisis de big data e inteligencia artificial para compartir minería de textos, gráficos de conocimiento, descubrimiento de conocimientos, información de bibliotecas y otro contenido. Además, estos contenidos también forman parte de la introducción del libro del autor "Text Mining and Knowledge Discovery (Python Edition)", que se espera que se publique en 2024. Un total de 20 capítulos, que cubren cientos de casos. Su atención, me gusta y retweets son el mayor apoyo para Xiuzhang. El conocimiento no tiene precio. Espero que todos podamos ser felices y crecer juntos en el camino de la vida.

Este artículo presenta principalmente los conocimientos básicos del software de análisis de visualización de documentos CiteSpace y toma el documento "Dream of Red Mansions" de CNKI como ejemplo para realizar minería de temas, agrupación de palabras clave y análisis de evolución de temas. Artículo básico, espero que te sea de ayuda.


1. Introducción e instalación de CiteSpace

1. Introducción

CiteSpace es una herramienta de análisis de literatura científica desarrollada conjuntamente por el Dr. Chaomei Chen de la Universidad de Drexel y el Laboratorio WISE. CiteSpace es un software de análisis de literatura visual implementado en Java que, como excelente software de bibliometría o bibliotecología y ciencias de la información, puede mostrar la tendencia o tendencia de desarrollo de un tema o campo de conocimiento en un determinado período de tiempo, formando el proceso de evolución de las fronteras de la investigación. , que puede visualizar la relación entre documentos en forma de gráfico de conocimiento científico.

  • Comúnmente utilizado en minería de temas de texto, análisis de evolución de texto, descubrimiento de conocimientos y otros campos.

inserte la descripción de la imagen aquí

El software CiteSpace visualiza muestras de datos basadas en análisis de cocitaciones y algoritmos de red de búsqueda de rutas, presentando el proceso de evolución de campos de conocimiento específicos. Especialmente frente a una literatura masiva, el software puede ayudarnos a identificar rápidamente información clave y temas centrales, extraer el historial de desarrollo del campo y predecir temas de investigación activos actuales y tendencias de desarrollo futuras. En resumen, CiteSpace no sólo puede ayudarnos a aclarar la trayectoria de la investigación pasada, el estado de la investigación y los temas candentes en un determinado campo, sino que también puede revelar la dirección de desarrollo futuro de este campo.

CiteSpace genera visualizaciones interactivas de patrones y tendencias estructurales y temporales de un campo científico. Facilita una revisión sistemática de un dominio de conocimiento a través de un proceso de análisis visual en profundidad. Puede procesar datos de citas de fuentes populares como Web of Science, Scopus, Dimensions y Lens. CiteSpace también admite funciones analíticas visuales básicas para conjuntos de datos sin información relacionada con citas, por ejemplo, PubMed, CNKI, ProQuest Dissertations and Theses. CiteSpace revela cómo ha evolucionado un campo de investigación, qué puntos de inflexión intelectual son evidentes a lo largo de un camino crítico y qué temas han llamado la atención. CiteSpace se puede aplicar repetidamente para seguir de cerca y extensamente el desarrollo de un campo.


2. Descargar

El software se puede descargar desde el sitio web oficial:

El entorno Java solo necesita descargar JRE o JDK.

Como se muestra en la siguiente figura, haga clic en descargar para descargar el software.

Por favor agregue una descripción de la imagen.

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

El software correspondiente también se puede descargar desde el siguiente sitio web.

inserte la descripción de la imagen aquí


3. Instalar

El software descargado por el autor se muestra en la siguiente figura.

inserte la descripción de la imagen aquí

Haga doble clic en el archivo para instalar e instálelo en el directorio especificado. Se recomienda instalar el directorio en inglés de la unidad que no sea C.

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

La instalación se realizó correctamente como se muestra en la siguiente figura.

Por favor agregue una descripción de la imagen.

Por favor agregue una descripción de la imagen.

La instalación se realizó correctamente, ejecute el software (icono del escritorio) como se muestra en la figura siguiente y haga clic en Aceptar.

Por favor agregue una descripción de la imagen.

La siguiente figura es la interfaz principal de CiteScape.

Por favor agregue una descripción de la imagen.


2. CNKI descargar conjunto de datos de literatura

El primer paso es abrir CNKI y buscar el tema correspondiente, como "El sueño de las mansiones rojas y los estudios rojos", y los lectores pueden intentar la búsqueda avanzada del tiempo correspondiente o la literatura requerida. En este momento, se busca un total de 3089 documentos de diario y luego se utiliza el botón "Seleccionar todo" para seleccionar los documentos requeridos.

inserte la descripción de la imagen aquí

En el segundo paso, después de seleccionar todas las revistas, haga clic en el botón "Exportar y análisis" y luego seleccione el formato "Refworks" dentro.

inserte la descripción de la imagen aquí

El tercer paso es descargar las reglas de nomenclatura de archivos al exportar: download_XXXX.txt.

Por favor agregue una descripción de la imagen.

El contenido final exportado se muestra en la siguiente figura, incluida la información relevante de cada documento. Los lectores pueden exportar todos los documentos y almacenarlos en el directorio especificado para el análisis de CiteSpace. Nota: HowNet puede exportar hasta 500 documentos a la vez y es necesario exportar más de 500 documentos en lotes.

Por favor agregue una descripción de la imagen.


3. Funcionamiento básico de CiteSpace

1. Introducción a las funciones básicas.

CiteSpace puede presentar la estructura, regularidad y distribución del conocimiento temático a través de medios de visualización y generar un mapa de conocimiento visual, para explorar información relevante como puntos críticos de investigación, fronteras de investigación, principales autores e instituciones en un determinado campo de investigación. También incluye análisis de:

  • La función de agrupación de citas puede ayudarnos a saber qué artículos se citan más
  • Según el análisis del eje temporal, puede encontrar la tendencia de desarrollo de cada tema en este campo y los puntos de investigación actuales.
  • ¿Cuáles son los principales temas que ocupan una posición dominante en todo el campo de investigación?
  • Países e instituciones con más publicaciones en este campo
  • Literatura pionera y literatura histórica en un campo determinado
  • Análisis de cocitación de documentos.
  • Análisis de grupos de comunidades de literatura.

La interfaz principal de CiteSpace incluye:

  • File(文件)
  • Project(项目)
  • Data(数据)
  • Visualization(可视化)
  • Overlay Maps(叠加分析)
  • Analytical(文献网络分析)
  • Network(网络)
  • Text(文本)
  • Preference(偏好设置)

Por favor agregue una descripción de la imagen.

Los datos que CiteSpace puede analizar incluyen:

  • Web of Science: El formato es el texto completo del registro completo y las referencias citadas.
  • CSSCI: El formato es codificación utf-8
  • CNKI(中国知网): El formato es Refworks
  • NSF: Requiere formato XML nsf.gov
  • Derwent(德温特专利数据库)
  • Scopus: formato RIS o CSV

inserte la descripción de la imagen aquí


2. Preparación de datos

El análisis de la herramienta CiteSpace necesita crear las carpetas correspondientes y cuatro carpetas para almacenar entradas, salidas, datos y proyectos. Como quiero analizar la literatura sobre "El sueño de las mansiones rojas", el nombre de la carpeta es Hongloumeng, como se muestra en la siguiente figura:

Por favor agregue una descripción de la imagen.

Luego almacene los documentos exportados por CNKI en la carpeta "entrada". Tenga en cuenta que es necesario cambiar el nombre de los archivos a download_01.txt y organizarlos en orden; de lo contrario, se informará un error.

Por favor agregue una descripción de la imagen.

Recordatorio:
CiteSpace no puede reconocer directamente los datos CNKI y se requiere una conversión de formato antes de importarlos.

El primer paso es hacer clic en el botón "Importar/Exportar" en "Datos".

Por favor agregue una descripción de la imagen.

El segundo paso es seleccionar "CNKI" en la interfaz emergente, seleccionar la carpeta de entrada donde se encuentra la cita en formato Refworks descargada en el "Directorio de entrada"; seleccionar la carpeta de salida en el Directorio de salida. Luego haga clic en el botón de conversión CNKI Format Conversion (3.0) para realizar la conversión.

Por favor agregue una descripción de la imagen.

En el tercer paso, cada archivo convertido se generará en la carpeta de salida en este momento y estos archivos se copiarán a la carpeta de datos.

Por favor agregue una descripción de la imagen.

inserte la descripción de la imagen aquí

El siguiente es el análisis específico.


3. Análisis visual

El primer paso es la importación de datos. Haga clic en "Proyecto" y "Nuevo" en CiteSpace para crear un nuevo proyecto, seleccione la carpeta de archivos del proyecto Proyecto y la carpeta de datos Datos, seleccione "CNKI" y chino como fuente de datos, y luego haga clic en Guardar.

inserte la descripción de la imagen aquí

El segundo paso es la configuración de parámetros. Seleccione los parámetros en el área de selección de funciones, el segmento de tiempo se establece de acuerdo con el rango de tiempo seleccionado al descargar documentos (como 2015-2020), los años por segmento se configuran en 1, los tipos de nodo seleccionan el contenido que se analizará (como la palabra clave). , Poda en Seleccione Poda de redes cortadas en el ciclo y mantenga la configuración predeterminada para otros parámetros.

inserte la descripción de la imagen aquí

El tercer paso es ejecutar el programa. Una vez que la configuración sea exitosa, haga clic en el botón "IR" para analizar. Esta parte analiza principalmente palabras clave.

inserte la descripción de la imagen aquí

El cuarto paso es el análisis de coexistencia de palabras clave. Después de ejecutar, haga clic en el botón de visualización "visualizar" y luego se formará un mapa de coexistencia de palabras clave. El análisis de coocurrencia tiene como objetivo explorar la relación de asociación entre palabras clave de alta frecuencia y explicar los puntos críticos del tema actual.

inserte la descripción de la imagen aquí

El resultado de la ejecución se muestra en la siguiente figura:

inserte la descripción de la imagen aquí

El quinto paso es visualizar la configuración. La red de coexistencia de palabras clave se puede embellecer y ajustar mediante la "palabra clave" en "Etiquetas" en el panel de control, incluido el tamaño del nodo, el tamaño de la etiqueta del nodo, la etiqueta del nodo, el umbral, etc. Ajuste el color de los nodos y las líneas mediante el "mapa de colores" para aclarar la conexión entre diferentes palabras clave. La siguiente figura muestra el efecto minero de las palabras clave y los temas en la literatura de Redología.

inserte la descripción de la imagen aquí

En el mapa de coocurrencia de palabras clave, cuanto mayor sea el tamaño del nodo y la fuente, mayor será la frecuencia de las palabras clave. La centralidad en la columna de datos de la izquierda representa la centralidad, que es un indicador clave para analizar la importancia de las palabras clave: cuanto mayor es la centralidad, mayor es la importancia y la influencia del nodo en la investigación. El enfoque y los puntos críticos en este campo de investigación se pueden conocer a partir del tamaño del nodo combinado con la centralidad y la frecuencia de las palabras clave.


4. Análisis de la evolución del tema de “Un sueño de mansiones rojas”

1. Análisis de conglomerados

Sobre la base del mapa de agrupación de palabras clave, se pueden realizar más análisis de agrupación. Haga clic en el icono como se muestra en la figura siguiente e ingrese "K" para agrupar automáticamente las palabras clave.

La silueta (valor S) en la esquina superior derecha de la imagen de visualización es un indicador para medir la homogeneidad de todos los miembros del grupo, y el valor normal es (-1,1). Cuando el valor S > 0,5, generalmente se considera que la agrupación es razonable.

Además, existen cuatro tipos de métodos de agrupación, de izquierda a derecha: agrupación uno menos (diseño y estilo automáticos), agrupación según el título del título, agrupación según palabras clave, agrupación según el autor, agrupación de todos los KTA (Título| Palabras clave|Autor). Después de la agrupación, se recomienda maximizar el umbral de etiquetas y las etiquetas anteriores no se mostrarán.

Por favor agregue una descripción de la imagen.

Además, haga clic en el segundo botón "Guardar" en la esquina superior izquierda para guardarlo como una imagen PNG.

inserte la descripción de la imagen aquí

El resultado de la agrupación de salida se muestra en la siguiente figura:

Nota: Se pide a los lectores que investiguen más configuraciones por sí mismos (como establecer el número de grupos). Este artículo se centra principalmente en cómo comenzar.


2. Análisis de la evolución del tema

Agregue el eje de tiempo TimeLine para mostrar el tema correspondiente. Las áreas de selección de cuadros en la siguiente figura son:

  • visualización en modo normal
  • Visualización de la línea de tiempo

inserte la descripción de la imagen aquí

El resultado de la exportación se muestra en la siguiente figura:

inserte la descripción de la imagen aquí

El resultado final de la optimización es el siguiente, ¡puedes probarlo!

inserte la descripción de la imagen aquí


5. Resumen

Escrito aquí, la introducción de este artículo ha terminado, espero que le resulte útil. Oye, llevo 12 años blogueando, y de repente no tengo motivación o(╥﹏╥)o
Pero todavía hay mucho conocimiento por compartir, apenas comparto un artículo y una nueva serie, espero que les guste. mejores deseos ~

  • 1. Introducción e instalación de CiteSpace
    1. Introducción
    2. Descarga
    3. Instalación
  • 2. CNKI descargar conjunto de datos de literatura
  • 3. Operación básica de CiteSpace
    1. Introducción a las funciones básicas
    2. Preparación de datos
    3. Análisis visual
  • 4. Análisis de la evolución del tema de la literatura "El sueño de las mansiones rojas"
    1. Análisis de conglomerados
    2. Análisis de la evolución del tema
  • 5. Resumen

Agosto ocupado, 2023 ocupado. Han pasado cuatro años en un abrir y cerrar de ojos, y ella y yo no somos fáciles. Cada vez que vemos "Gracias", lloraremos. La juventud ha cambiado, pero nuestras emociones no han cambiado. Espero que nuestra familia esté sana. y feliz. Acabo de llegar al dormitorio, ¡es hora de luchar!

inserte la descripción de la imagen aquí

(Por:Eastmount 2023-08-29 noche en Wuhan http://blog.csdn.net/eastmount/ )


referencias:

Supongo que te gusta

Origin blog.csdn.net/Eastmount/article/details/132558778
Recomendado
Clasificación