Agosto está demasiado ocupado, ¡escribamos un artículo!
Este artículo es la nueva columna del autor a finales de agosto de 2023: "Minería de textos y descubrimiento de conocimientos", que combina principalmente Python, análisis de big data e inteligencia artificial para compartir minería de textos, gráficos de conocimiento, descubrimiento de conocimientos, información de bibliotecas y otro contenido. Además, estos contenidos también forman parte de la introducción del libro del autor "Text Mining and Knowledge Discovery (Python Edition)", que se espera que se publique en 2024. Un total de 20 capítulos, que cubren cientos de casos. Su atención, me gusta y retweets son el mayor apoyo para Xiuzhang. El conocimiento no tiene precio. Espero que todos podamos ser felices y crecer juntos en el camino de la vida.
Este artículo presenta principalmente los conocimientos básicos del software de análisis de visualización de documentos CiteSpace y toma el documento "Dream of Red Mansions" de CNKI como ejemplo para realizar minería de temas, agrupación de palabras clave y análisis de evolución de temas. Artículo básico, espero que te sea de ayuda.
Directorio de artículos
1. Introducción e instalación de CiteSpace
1. Introducción
CiteSpace es una herramienta de análisis de literatura científica desarrollada conjuntamente por el Dr. Chaomei Chen de la Universidad de Drexel y el Laboratorio WISE. CiteSpace es un software de análisis de literatura visual implementado en Java que, como excelente software de bibliometría o bibliotecología y ciencias de la información, puede mostrar la tendencia o tendencia de desarrollo de un tema o campo de conocimiento en un determinado período de tiempo, formando el proceso de evolución de las fronteras de la investigación. , que puede visualizar la relación entre documentos en forma de gráfico de conocimiento científico.
- Comúnmente utilizado en minería de temas de texto, análisis de evolución de texto, descubrimiento de conocimientos y otros campos.
El software CiteSpace visualiza muestras de datos basadas en análisis de cocitaciones y algoritmos de red de búsqueda de rutas, presentando el proceso de evolución de campos de conocimiento específicos. Especialmente frente a una literatura masiva, el software puede ayudarnos a identificar rápidamente información clave y temas centrales, extraer el historial de desarrollo del campo y predecir temas de investigación activos actuales y tendencias de desarrollo futuras. En resumen, CiteSpace no sólo puede ayudarnos a aclarar la trayectoria de la investigación pasada, el estado de la investigación y los temas candentes en un determinado campo, sino que también puede revelar la dirección de desarrollo futuro de este campo.
CiteSpace genera visualizaciones interactivas de patrones y tendencias estructurales y temporales de un campo científico. Facilita una revisión sistemática de un dominio de conocimiento a través de un proceso de análisis visual en profundidad. Puede procesar datos de citas de fuentes populares como Web of Science, Scopus, Dimensions y Lens. CiteSpace también admite funciones analíticas visuales básicas para conjuntos de datos sin información relacionada con citas, por ejemplo, PubMed, CNKI, ProQuest Dissertations and Theses. CiteSpace revela cómo ha evolucionado un campo de investigación, qué puntos de inflexión intelectual son evidentes a lo largo de un camino crítico y qué temas han llamado la atención. CiteSpace se puede aplicar repetidamente para seguir de cerca y extensamente el desarrollo de un campo.
2. Descargar
El software se puede descargar desde el sitio web oficial:
El entorno Java solo necesita descargar JRE o JDK.
Como se muestra en la siguiente figura, haga clic en descargar para descargar el software.
El software correspondiente también se puede descargar desde el siguiente sitio web.
3. Instalar
El software descargado por el autor se muestra en la siguiente figura.
Haga doble clic en el archivo para instalar e instálelo en el directorio especificado. Se recomienda instalar el directorio en inglés de la unidad que no sea C.
La instalación se realizó correctamente como se muestra en la siguiente figura.
La instalación se realizó correctamente, ejecute el software (icono del escritorio) como se muestra en la figura siguiente y haga clic en Aceptar.
La siguiente figura es la interfaz principal de CiteScape.
2. CNKI descargar conjunto de datos de literatura
El primer paso es abrir CNKI y buscar el tema correspondiente, como "El sueño de las mansiones rojas y los estudios rojos", y los lectores pueden intentar la búsqueda avanzada del tiempo correspondiente o la literatura requerida. En este momento, se busca un total de 3089 documentos de diario y luego se utiliza el botón "Seleccionar todo" para seleccionar los documentos requeridos.
En el segundo paso, después de seleccionar todas las revistas, haga clic en el botón "Exportar y análisis" y luego seleccione el formato "Refworks" dentro.
El tercer paso es descargar las reglas de nomenclatura de archivos al exportar: download_XXXX.txt.
El contenido final exportado se muestra en la siguiente figura, incluida la información relevante de cada documento. Los lectores pueden exportar todos los documentos y almacenarlos en el directorio especificado para el análisis de CiteSpace. Nota: HowNet puede exportar hasta 500 documentos a la vez y es necesario exportar más de 500 documentos en lotes.
3. Funcionamiento básico de CiteSpace
1. Introducción a las funciones básicas.
CiteSpace puede presentar la estructura, regularidad y distribución del conocimiento temático a través de medios de visualización y generar un mapa de conocimiento visual, para explorar información relevante como puntos críticos de investigación, fronteras de investigación, principales autores e instituciones en un determinado campo de investigación. También incluye análisis de:
- La función de agrupación de citas puede ayudarnos a saber qué artículos se citan más
- Según el análisis del eje temporal, puede encontrar la tendencia de desarrollo de cada tema en este campo y los puntos de investigación actuales.
- ¿Cuáles son los principales temas que ocupan una posición dominante en todo el campo de investigación?
- Países e instituciones con más publicaciones en este campo
- Literatura pionera y literatura histórica en un campo determinado
- Análisis de cocitación de documentos.
- Análisis de grupos de comunidades de literatura.
La interfaz principal de CiteSpace incluye:
File(文件)
Project(项目)
Data(数据)
Visualization(可视化)
Overlay Maps(叠加分析)
Analytical(文献网络分析)
Network(网络)
Text(文本)
Preference(偏好设置)
Los datos que CiteSpace puede analizar incluyen:
Web of Science
: El formato es el texto completo del registro completo y las referencias citadas.CSSCI
: El formato es codificación utf-8CNKI(中国知网)
: El formato es RefworksNSF
: Requiere formato XML nsf.govDerwent(德温特专利数据库)
Scopus
: formato RIS o CSV
2. Preparación de datos
El análisis de la herramienta CiteSpace necesita crear las carpetas correspondientes y cuatro carpetas para almacenar entradas, salidas, datos y proyectos. Como quiero analizar la literatura sobre "El sueño de las mansiones rojas", el nombre de la carpeta es Hongloumeng, como se muestra en la siguiente figura:
Luego almacene los documentos exportados por CNKI en la carpeta "entrada". Tenga en cuenta que es necesario cambiar el nombre de los archivos a download_01.txt y organizarlos en orden; de lo contrario, se informará un error.
Recordatorio:
CiteSpace no puede reconocer directamente los datos CNKI y se requiere una conversión de formato antes de importarlos.
El primer paso es hacer clic en el botón "Importar/Exportar" en "Datos".
El segundo paso es seleccionar "CNKI" en la interfaz emergente, seleccionar la carpeta de entrada donde se encuentra la cita en formato Refworks descargada en el "Directorio de entrada"; seleccionar la carpeta de salida en el Directorio de salida. Luego haga clic en el botón de conversión CNKI Format Conversion (3.0) para realizar la conversión.
En el tercer paso, cada archivo convertido se generará en la carpeta de salida en este momento y estos archivos se copiarán a la carpeta de datos.
El siguiente es el análisis específico.
3. Análisis visual
El primer paso es la importación de datos. Haga clic en "Proyecto" y "Nuevo" en CiteSpace para crear un nuevo proyecto, seleccione la carpeta de archivos del proyecto Proyecto y la carpeta de datos Datos, seleccione "CNKI" y chino como fuente de datos, y luego haga clic en Guardar.
El segundo paso es la configuración de parámetros. Seleccione los parámetros en el área de selección de funciones, el segmento de tiempo se establece de acuerdo con el rango de tiempo seleccionado al descargar documentos (como 2015-2020), los años por segmento se configuran en 1, los tipos de nodo seleccionan el contenido que se analizará (como la palabra clave). , Poda en Seleccione Poda de redes cortadas en el ciclo y mantenga la configuración predeterminada para otros parámetros.
El tercer paso es ejecutar el programa. Una vez que la configuración sea exitosa, haga clic en el botón "IR" para analizar. Esta parte analiza principalmente palabras clave.
El cuarto paso es el análisis de coexistencia de palabras clave. Después de ejecutar, haga clic en el botón de visualización "visualizar" y luego se formará un mapa de coexistencia de palabras clave. El análisis de coocurrencia tiene como objetivo explorar la relación de asociación entre palabras clave de alta frecuencia y explicar los puntos críticos del tema actual.
El resultado de la ejecución se muestra en la siguiente figura:
El quinto paso es visualizar la configuración. La red de coexistencia de palabras clave se puede embellecer y ajustar mediante la "palabra clave" en "Etiquetas" en el panel de control, incluido el tamaño del nodo, el tamaño de la etiqueta del nodo, la etiqueta del nodo, el umbral, etc. Ajuste el color de los nodos y las líneas mediante el "mapa de colores" para aclarar la conexión entre diferentes palabras clave. La siguiente figura muestra el efecto minero de las palabras clave y los temas en la literatura de Redología.
En el mapa de coocurrencia de palabras clave, cuanto mayor sea el tamaño del nodo y la fuente, mayor será la frecuencia de las palabras clave. La centralidad en la columna de datos de la izquierda representa la centralidad, que es un indicador clave para analizar la importancia de las palabras clave: cuanto mayor es la centralidad, mayor es la importancia y la influencia del nodo en la investigación. El enfoque y los puntos críticos en este campo de investigación se pueden conocer a partir del tamaño del nodo combinado con la centralidad y la frecuencia de las palabras clave.
4. Análisis de la evolución del tema de “Un sueño de mansiones rojas”
1. Análisis de conglomerados
Sobre la base del mapa de agrupación de palabras clave, se pueden realizar más análisis de agrupación. Haga clic en el icono como se muestra en la figura siguiente e ingrese "K" para agrupar automáticamente las palabras clave.
La silueta (valor S) en la esquina superior derecha de la imagen de visualización es un indicador para medir la homogeneidad de todos los miembros del grupo, y el valor normal es (-1,1). Cuando el valor S > 0,5, generalmente se considera que la agrupación es razonable.
Además, existen cuatro tipos de métodos de agrupación, de izquierda a derecha: agrupación uno menos (diseño y estilo automáticos), agrupación según el título del título, agrupación según palabras clave, agrupación según el autor, agrupación de todos los KTA (Título| Palabras clave|Autor). Después de la agrupación, se recomienda maximizar el umbral de etiquetas y las etiquetas anteriores no se mostrarán.
Además, haga clic en el segundo botón "Guardar" en la esquina superior izquierda para guardarlo como una imagen PNG.
El resultado de la agrupación de salida se muestra en la siguiente figura:
Nota: Se pide a los lectores que investiguen más configuraciones por sí mismos (como establecer el número de grupos). Este artículo se centra principalmente en cómo comenzar.
2. Análisis de la evolución del tema
Agregue el eje de tiempo TimeLine para mostrar el tema correspondiente. Las áreas de selección de cuadros en la siguiente figura son:
- visualización en modo normal
- Visualización de la línea de tiempo
El resultado de la exportación se muestra en la siguiente figura:
El resultado final de la optimización es el siguiente, ¡puedes probarlo!
5. Resumen
Escrito aquí, la introducción de este artículo ha terminado, espero que le resulte útil. Oye, llevo 12 años blogueando, y de repente no tengo motivación o(╥﹏╥)o
Pero todavía hay mucho conocimiento por compartir, apenas comparto un artículo y una nueva serie, espero que les guste. mejores deseos ~
- 1. Introducción e instalación de CiteSpace
1. Introducción
2. Descarga
3. Instalación - 2. CNKI descargar conjunto de datos de literatura
- 3. Operación básica de CiteSpace
1. Introducción a las funciones básicas
2. Preparación de datos
3. Análisis visual - 4. Análisis de la evolución del tema de la literatura "El sueño de las mansiones rojas"
1. Análisis de conglomerados
2. Análisis de la evolución del tema - 5. Resumen
Agosto ocupado, 2023 ocupado. Han pasado cuatro años en un abrir y cerrar de ojos, y ella y yo no somos fáciles. Cada vez que vemos "Gracias", lloraremos. La juventud ha cambiado, pero nuestras emociones no han cambiado. Espero que nuestra familia esté sana. y feliz. Acabo de llegar al dormitorio, ¡es hora de luchar!
(Por:Eastmount 2023-08-29 noche en Wuhan http://blog.csdn.net/eastmount/ )
referencias:
- [1] Libro del autor "Minería de textos y descubrimiento de conocimientos"
- [2] http://cluster.cis.drexel.edu/~cchen/citespace/download/
- [3] Tutorial de introducción a CiteSpace: descargar la guía de instalación - Gsqsis
- [4] Recomendación de herramientas | Guía para una investigación científica adorable - Artefacto de visualización de literatura CiteSpace - Educación e investigación en tecnología de traducción
- [5] Estrategia de aprendizaje | Software de análisis de documentos visuales——CiteSpace - Nanlin