Un artículo para comprender lo que puede hacer el mapa de conocimiento, este artículo incluye la prueba de las herramientas de procesamiento de lenguaje natural de Jiagu y el combate real del mapa de conocimiento.

Introducción al gráfico de conocimiento:

Como base de infraestructura importante en la era de los grandes datos, Knowledge Graph se ha utilizado ampliamente en aplicaciones inteligentes, como motores de búsqueda de próxima generación, sistemas inteligentes de respuesta a preguntas, procesamiento de texto y procesamiento de lenguaje natural. El gráfico de conocimiento define de forma estándar el almacenamiento de conocimiento y puede hacer que el razonamiento del conocimiento y la toma de decisiones sean más convenientes y eficientes. También hay cada vez más investigaciones sobre la aplicación de gráficos de conocimiento para dominios específicos. En la actualidad, la popularidad de las aplicaciones de gráficos de conocimiento basadas en la robótica continúa aumentando, pero las tecnologías relacionadas con el sistema inteligente de respuesta a preguntas de apoyo aún son inmaduras.

 1. Aplicación del mapa de conocimiento en algunos campos

1.1 Introducción al gráfico de conocimiento

El gráfico de conocimiento no es un concepto nuevo, ya en 2006, la literatura [5] propuso el concepto de web semántica, llamando a la promoción y mejora del modelo de ontología para expresar formalmente la semántica implícita en los datos, RDF (marco de descripción de recursos). Los modelos formales del esquema RDF y el lenguaje de ontología web (OWL) se basan en el propósito anterior. Luego hubo un auge de la investigación de la web semántica. El surgimiento de la tecnología de gráficos de conocimiento se basa en la investigación relacionada anterior, que es una superación y sublimación de los estándares y tecnologías de la web semántica. El mapa de conocimiento fue propuesto oficialmente por Google el 17 de mayo de 2012 [6] Su intención original era mejorar las capacidades de los motores de búsqueda y mejorar la calidad de búsqueda y la experiencia de búsqueda de los usuarios. En la actualidad, con el desarrollo continuo de aplicaciones de servicios de información inteligentes, los gráficos de conocimiento se han utilizado ampliamente en búsquedas inteligentes, preguntas y respuestas inteligentes, recomendaciones personalizadas y otros campos. Especialmente en la búsqueda inteligente, la solicitud de búsqueda del usuario ya no se limita a una simple coincidencia de palabras clave, y la búsqueda se deducirá en función del contexto y la intención de la consulta del usuario para lograr la recuperación del concepto. Al mismo tiempo, los resultados de búsqueda del usuario tendrán características importantes como la jerarquía y la estructura. Por ejemplo, si la palabra clave que busca el usuario es Van Gogh, el motor proporcionará la vida detallada de Van Gogh, información sobre su carrera artística, obras representativas de diferentes períodos en forma de tarjetas de conocimiento, junto con información descriptiva como imágenes. Los gráficos de conocimiento permiten que las computadoras entiendan los patrones de comunicación del lenguaje humano, para retroalimentar de manera más inteligente las respuestas que los usuarios necesitan [7]. Al mismo tiempo, los gráficos de conocimiento pueden agregar información, datos y vincular relaciones en la Web en conocimiento, haciendo que los recursos de información sean más fáciles de calcular, comprender y evaluar, y formando un conjunto de bases de conocimiento semántico Web.

1.2 Características del gráfico de conocimiento

El mapa de conocimiento tiene las siguientes tres características: ① La estructura de almacenamiento de datos y conocimiento es una estructura gráfica dirigida. La estructura gráfica dirigida permite que el mapa de conocimiento almacene de manera efectiva la relación entre datos y conocimiento; ② tiene capacidades eficientes de recuperación de datos y conocimiento. El gráfico de conocimiento puede realizar un acceso eficiente a los datos y al conocimiento a través del algoritmo de comparación de gráficos; ③ tiene capacidades inteligentes de razonamiento de datos y conocimiento. El gráfico de conocimiento puede descubrir y razonar automática e inteligentemente el conocimiento implícito de múltiples ángulos a partir del conocimiento existente.

1.3 Ventajas y Valores de Knowledge Graph

(1) Fuerte capacidad expresiva de relación

Las bases de datos tradicionales generalmente se leen a través de tablas, campos, etc., y los niveles y expresiones de las relaciones son varios. Basados ​​en la teoría de gráficos y modelos de gráficos probabilísticos, pueden manejar análisis de asociación complejos y diversos, satisfaciendo el análisis y análisis de varias relaciones de roles. en las empresas Necesidades de gestión.

(2) Hacer análisis como el pensamiento humano

El análisis exploratorio interactivo basado en el mapa de conocimiento puede simular el proceso de pensamiento humano para descubrir, verificar y razonar.El personal comercial puede completar todo el proceso por sí mismo sin la ayuda de profesionales.

(3) Aprendizaje del conocimiento

Utilice la tecnología de aprendizaje automático interactivo para respaldar las funciones de aprendizaje basadas en acciones interactivas como el razonamiento, la corrección de errores y el etiquetado, acumule continuamente modelos y lógica de conocimiento, mejore la inteligencia del sistema, deposite conocimiento dentro de la empresa y reduzca la dependencia de la experiencia.

(4) retroalimentación de alta velocidad

En comparación con el método de almacenamiento tradicional, el método de almacenamiento de datos de esquema tiene una velocidad de recuperación de datos más rápida. La galería puede calcular la distribución de atributos de más de un millón de entidades potenciales y puede devolver los resultados en segundos, realmente realizando la respuesta en tiempo real de humanos -Interacción informática, para que los Usuarios puedan tomar decisiones al instante.

1.4 Aplicación del mapa de conocimiento en el campo de la robótica

La primera aplicación del gráfico de conocimiento es mejorar la capacidad del motor de búsqueda. Posteriormente, el gráfico de conocimiento ha demostrado un gran valor de aplicación en muchos aspectos, como la respuesta de preguntas inteligentes auxiliares, la comprensión del lenguaje natural, el análisis de big data, la computación de recomendaciones, la interconexión de dispositivos de Internet de las cosas y los robots interpretables.

1.4.1 Búsqueda integrada de robot asistido

La forma definitiva de Internet es la interconexión de todas las cosas, y el objetivo final de la búsqueda es la búsqueda directa de todas las cosas. Los motores de búsqueda tradicionales se basan en hipervínculos entre páginas web para buscar páginas web, mientras que la búsqueda semántica consiste en buscar directamente cosas, como personas, instituciones, lugares, etc. Estas cosas pueden provenir de varios recursos de información, como texto, imágenes, video, audio y dispositivos IoT. El gráfico de conocimiento y la tecnología semántica brindan descripciones sobre la clasificación, los atributos y las relaciones de estas cosas, de modo que los motores de búsqueda puedan indexar y buscar cosas directamente, como se muestra en la Figura 1-1.

                                             Figura 1-1 Búsqueda asistida por mapa de conocimiento

1.4.2 Preguntas y respuestas sobre robots de asistencia

La respuesta a preguntas y el diálogo entre humanos y robots a través del lenguaje natural es uno de los signos clave de la realización de la inteligencia artificial. Además de la búsqueda asistida, los gráficos de conocimiento también se utilizan ampliamente en las interacciones de preguntas y respuestas entre humanos y computadoras. En la industria, IBM Watson se basa en bases de conocimientos enciclopédicos como DBpedia y Yago y bases de conocimientos lingüísticos como WordNet para lograr respuestas a preguntas de conocimiento profundo. Amazon Alex se basa principalmente en el gráfico de conocimiento acumulado por True Knowledge. Hay enormes gráficos de conocimiento detrás de Dumi, la versión evolucionada de Siri de Viv, Xiaoai Robot y Tmall Genie.

Con la ola de inteligencia de robots y dispositivos IoT, la aplicación de diálogos de preguntas y respuestas basados ​​en gráficos de conocimiento en áreas como la conducción inteligente, los hogares inteligentes y las cocinas inteligentes está surgiendo en un flujo interminable. Las técnicas o métodos típicos de respuesta a preguntas basados ​​en gráficos de conocimiento incluyen: basado en análisis semántico, basado en coincidencia de gráficos, basado en aprendizaje de plantillas, basado en aprendizaje de representación y aprendizaje profundo, y basado en modelos híbridos. En estos métodos, el gráfico de conocimiento se usa no solo para ayudar en el análisis semántico, sino también para unir entidades de preguntas y entrenar redes neuronales y modelos de clasificación. El gráfico de conocimiento es un módulo esencial para realizar la respuesta a preguntas de interacción humano-computadora.

1.4.3 Análisis de datos de robot asistido

Los gráficos de conocimiento y las tecnologías semánticas también se utilizan para ayudar en el análisis de datos y la toma de decisiones. Por ejemplo, Palantir, una empresa de big data, fusiona e integra datos de múltiples fuentes en función de la ontología y mejora la relación entre los datos a través del gráfico de conocimiento y la tecnología semántica, para que los usuarios puedan utilizar un gráfico más intuitivo para extraer y analizar datos.

Los gráficos de conocimiento también pueden desempeñar un papel único en el procesamiento y análisis de datos de texto. Por ejemplo, los gráficos de conocimiento se utilizan ampliamente como conocimiento previo para extraer entidades y relaciones del texto, como aplicaciones en supervisión a distancia. Los gráficos de conocimiento también se utilizan para ayudar en la realización de la desambiguación de entidades (Desambiguación de entidades), la resolución de referencias y la comprensión del texto en el texto.

En los últimos años, el análisis descriptivo de datos (Declarative Data Analysis) ha recibido cada vez más atención. El análisis descriptivo de datos se refiere al método de realizar análisis de datos que se basa en la descripción semántica de los datos en sí. Los diferentes análisis de datos computacionales son principalmente para establecer varios modelos de análisis de datos, como una red neuronal profunda, mientras que el análisis de datos descriptivos destaca la semántica de los datos extraídos previamente, establece la lógica entre los datos y se basa en métodos de razonamiento lógico (como DataLog) para lograr el análisis de datos.

1.4.4 Comprensión del lenguaje del robot asistido

El conocimiento previo, especialmente el conocimiento de sentido común, se considera un componente esencial para la comprensión semántica profunda (como la comprensión de lectura, la respuesta a preguntas entre humanos y computadoras, etc.). Un ejemplo típico es el Winograd Schema Challenge (competencia WSC). WSC fue propuesto por el famoso experto en inteligencia artificial, el profesor Héctor Levesque.En 2016, la primera competencia de WSC se llevó a cabo en la Conferencia Internacional de Inteligencia Artificial IJCAI. WSC se enfoca principalmente en aquellas tareas de PNL que deben superponerse al conocimiento previo para comprender la semántica de las oraciones. Por ejemplo, en el siguiente ejemplo, cuando se describe como grande, es fácil que las personas entiendan que se refiere a un trofeo, y cuando se compara con pequeño, es fácil reconocer que se refiere a una maleta.

El trofeo no cabía en la maleta marrón porque era demasiado grande (pequeño). ¿Qué era demasiado grande (pequeño)?

Respuesta 0: el trofeo Respuesta 1: la maleta

Este problema aparentemente muy fácil, la máquina no puede resolverlo. Como dijo Terry Winograd, pionero en la comprensión del lenguaje natural, cuando una persona escucha o ve una oración, utiliza todo su conocimiento e inteligencia para comprenderla. Esto incluye no solo la gramática, sino también el conocimiento del vocabulario, el conocimiento contextual y, lo que es más importante, la comprensión de cosas relacionadas.

1.4.5 Interconexión de equipos auxiliares de robot

El principal desafío del diálogo humano-computadora es la comprensión semántica, es decir, permitir que la máquina entienda la semántica del lenguaje humano. Otro problema es el diálogo entre máquinas, que también requiere medios técnicos para representar y procesar la semántica del lenguaje máquina. La tecnología semántica también se puede utilizar para facilitar la interconexión semántica entre dispositivos. OneM2M es la organización de estandarización internacional más grande del mundo para Internet de las cosas establecida en 2012. Principalmente proporciona "pegamento estandarizado" para la interconexión entre dispositivos IoT. OneM2M presta atención a la semántica de la tecnología semántica al encapsular datos de dispositivos y realiza la interoperabilidad semántica entre dispositivos basada en tecnología semántica. Además, OneM2M también presta atención a cómo se adaptan la semántica de los datos del dispositivo y la semántica del lenguaje humano. Como se muestra en la Figura 1-2, una vez que los datos originales generados por un dispositivo encapsulan la descripción semántica, se pueden fusionar, intercambiar e interoperar más fácilmente con los datos de otros dispositivos, y se pueden vincular aún más al mapa de conocimiento para respaldar la búsqueda. , razonamiento y tareas de análisis.

                                                         Figura 1-2 Encapsulación de la semántica del dispositivo

2. Prueba de las herramientas de código abierto de OpenKG

2.1 Descripción general de la herramienta de procesamiento de lenguaje natural Jiagu

Jiagu se basa en modelos como BiLSTM y se entrena utilizando corpus a gran escala. Proporcionará funciones comunes de procesamiento del lenguaje natural, como la segmentación de palabras chinas, el etiquetado de partes del discurso, el reconocimiento de entidades nombradas, el análisis de sentimientos, la extracción de relaciones de gráficos de conocimiento, la extracción de palabras clave, el resumen de texto y el descubrimiento de nuevas palabras. Hecho con referencia a las ventajas y desventajas de las principales herramientas, y devolverá Jiagu a todos.

2.2 La herramienta de procesamiento de lenguaje natural Jiagu se implementa localmente

2.2.1 Descargar Jiagu

Primero, ingresamos al sitio web oficial de OpenKG para encontrar la página de código abierto del proyecto. Esta es una herramienta de gráfico de conocimiento de código abierto de Sizhi Robotics. Luego vamos a Github para descargar el proyecto.

           

 

                                        Figura 2-1 Vista del sitio web oficial de OpenKG Jiagu

                                       Figura 2-2 Vista de Github Proyecto de código abierto Jiagu

2.2.2 Crear un entorno virtual para Jiagu

Primero necesitamos instalar anaconda para crear el entorno.

Primero, abrimos anaconda e ingresamos los siguientes comandos a su vez

conda crear -n Jiagu python=3.8

conda activar Jiagu     

Luego ingrese python3 setup.py install

          

                                            Figura 2-3 Crear un entorno virtual con anaconda

           

Figura 2-4 Instalación de la herramienta JiaguNLP

                                         Figura 2-5 Jiagu instalado con éxito

Siguiente instalación numpy   

 

                                                           Figura 2-6 instalación numpy

A continuación, debe instalar matplotlib nuevamente

                                             Figura 2-7 Instalación de matplotlib

De esta forma, se instalan los tres paquetes que necesitamos, jiagu, matplotlib y numpy.

2.3 Instancia de Jiagu ejecutándose y usándose

2.3.1 Segmentación de palabras, etiquetado de partes del discurso, reconocimiento de entidades nombradas

Ejecute el código Python de la siguiente manera:

importar jiagu

#jiagu.init() # Se puede inicializar manual o dinámicamente

text = 'Lloverá mañana en Xiamen'

palabras = jiagu.seg(texto) # segmentación de palabras

imprimir (palabras)

pos = jiagu.pos(palabras) # etiquetado de parte del discurso

imprimir (pos)

ner = jiagu.ner(palabras) # Reconocimiento de entidad nombrada

imprimir (ner)

         

                                Figura 2-8 Segmentación de palabras, etiquetado de partes del discurso y reconocimiento de entidades nombradas

2.3.2 prueba de demostración

A continuación, ejecutamos la demostración para probar

El código de prueba es el siguiente:

importar jiagu

# jiagu.init() # Se puede inicializar manual o dinámicamente

text = 'El tiempo en Suzhou es bueno'

palabras = jiagu.seg(texto) # segmentación de palabras

imprimir (palabras)

palabras = jiagu.cut(texto) # segmentación de palabras

imprimir (palabras)

pos = jiagu.pos(palabras) # etiquetado de parte del discurso

imprimir (pos)

ner = jiagu.ner(palabras) # Reconocimiento de entidad nombrada

imprimir (ner)

# Segmentación de palabras en modo diccionario

text = 'Sizhi Robot es muy fácil de usar'

palabras = jiagu.seg(texto)

imprimir (palabras)

# jiagu.load_userdict('dict/user.dict') # Cargar diccionario personalizado, ruta de diccionario de soporte, formulario de lista de diccionario.

jiagu.load_userdict(['Robot Sizhi'])

palabras = jiagu.seg(texto)

imprimir (palabras)

texto = '''

Chen Chi, uno de los coautores del estudio y doctor del Departamento de Ciencias Ambientales y de la Tierra de la Universidad de Boston, dijo: "Aunque China e India solo representan el 9 % de la superficie terrestre del mundo, contribuyen con más de un tercio de este proceso de ecologización. 1. Este hallazgo es sorprendente dado el problema general del uso excesivo de la tierra en países superpoblados".

Rama Nemani, científico del Centro de Investigación Ames de la NASA, dijo: "Estos datos a largo plazo nos permiten analizar los factores detrás del enverdecimiento de la superficie. Inicialmente pensamos que el aumento de la vegetación se debía a más emisiones de dióxido de carbono". en un clima más cálido y húmedo adecuado para el crecimiento”.

"Los datos de MODIS nos permitieron comprender este fenómeno a escalas muy pequeñas y descubrimos que la actividad humana también contribuyó".

Según un artículo de la NASA, el 42 % de la contribución de China al proceso global de ecologización proviene de proyectos de forestación, que han desempeñado un papel en la reducción de la erosión del suelo, la contaminación del aire y el cambio climático.

Según informes anteriores de Observer.com, en 2017 mi país completó un total de 7.362 millones de hectáreas de forestación y 8.302 millones de hectáreas de cuidado de bosques. Entre ellos, se han forestado 260.000 hectáreas de bosques en el proyecto de protección de los recursos forestales naturales y 912.000 hectáreas en el proyecto de devolución de tierras de cultivo a bosques. Se han reforestado 185.000 hectáreas de bosques en el proyecto de control de fuentes de tormentas de arena Beijing-Tianjin. Se han reforestado 991.000 hectáreas de bosques en proyectos clave del sistema de cinturones protectores, como los Tres Nortes y la cuenca del río Yangtze. Completar la tarea de construcción de 680.000 hectáreas de bosque de reserva nacional.

'''

palabras clave = jiagu.keywords(texto, 5) # extracción de palabras clave

imprimir (palabras clave)

resume = jiagu.summarize(texto, 3) # resumen del texto

imprimir (resumir)

# jiagu.findword('input.txt', 'output.txt') # Basado en un corpus a gran escala, usa la entropía de la información para encontrar nuevas palabras.

# Extracción de la relación del gráfico de conocimiento

text = "Yao Ming nació en el distrito de Xuhui, Shanghái, el 12 de septiembre de 1980. Su hogar ancestral es la ciudad de Zhenze, distrito de Wujiang, ciudad de Suzhou, provincia de Jiangsu. Es un exjugador de baloncesto profesional chino y delantero centro. Actualmente es el presidente y gerente general de la Federación Vocacional de China. '

conocimiento = jiagu.conocimiento(texto)

imprimir (conocimiento)

# análisis de emociones

text = 'muy desagradable o un holgazán'

sentimiento = jiagu.sentimiento(texto)

imprimir (sentimiento)

# Agrupación de texto (requiere parámetros de ajuste)

documentos = [

        "Baidu Deep Learning Chinese Sentiment Analysis Tool Senta Trial and Online Test",

        "El análisis de sentimientos es un tema candente en el procesamiento del lenguaje natural",

        "Resumen del código y soluciones relacionadas con la competencia de minería de texto AI Challenger 2018",

        "Práctica de aprendizaje profundo: hacer análisis de opinión de texto de revisión de película desde cero",

        "Resumen de documentos, artículos y recursos de código relacionados con BERT",

        "Codifica oraciones de diferentes longitudes con el modelo de preentrenamiento BERT y mapéalas en un vector de longitud fija",

        "Introducción al kit de herramientas de procesamiento del lenguaje natural spaCy",

        "Ahora puede probar rápidamente las funciones relevantes de spaCy. Tomemos como ejemplo los datos en inglés. Actualmente, spaCy admite principalmente inglés y alemán".

    ]

clúster = jiagu.text_cluster(docs)

imprimir (grupo)

La captura de pantalla del resultado de la ejecución del código es la siguiente:

                                                    Figura 2-9 La demostración se ejecuta correctamente
2.3.3 Segmentación de palabras chinas

El código de ejecución es el siguiente:

importar jiagu

text = 'Hanfu y ropa, Wikimaps'

palabras = jiagu.seg(texto)

imprimir (palabras)

# jiagu.load_userdict('dict/user.dict') # Cargar diccionario personalizado, ruta de diccionario de soporte, formulario de lista de diccionario.

jiagu.load_userdict(['Hanfu y ropa'])

palabras = jiagu.seg(texto) # segmentación de palabras personalizada, el modo de segmentación de palabras del diccionario es válido

imprimir (palabras)

                                               Figura 2-10 Ejecución de la segmentación de palabras chinas

2.3.4 Extracción de la relación del gráfico de conocimiento

Este caso solo se puede probar usando la descripción de Wikipedia. El autor propone que la API se abra en una etapa posterior con mejores resultados.

el código se muestra a continuación:

importar jiagu

# Kiss Goodbye es una canción cantada por Jacky Cheung.

# "Tomb Raider Notes" es un drama de temporada en línea producido por Huanrui Century Film and Television Media Co., Ltd. en 2014. Es una adaptación de la novela del mismo nombre escrita por Nanpai Sanshu, codirigida por Zheng Baorui y Luo Yongchang, Li Yifeng, Yang Yang, Tang Yan, Liu Tianzuo, Zhang Zhiyao, Wei Wei y otros papeles protagónicos.

text = "Yao Ming nació en el distrito de Xuhui, Shanghái, el 12 de septiembre de 1980. Su hogar ancestral es la ciudad de Zhenze, distrito de Wujiang, ciudad de Suzhou, provincia de Jiangsu. Es un exjugador de baloncesto profesional chino y delantero centro. Actualmente es el presidente y gerente general de la Federación Vocacional de China. '

conocimiento = jiagu.conocimiento(texto)

imprimir (conocimiento)

                                            Figura 2-11 Extracción de relaciones en ejecución

2.3.5 Extracción de palabras clave

el código se muestra a continuación:

importar jiagu

texto = '''

Chen Chi, uno de los coautores del estudio y doctor del Departamento de Ciencias Ambientales y de la Tierra de la Universidad de Boston, dijo: "Aunque China e India solo representan el 9 % de la superficie terrestre del mundo, contribuyen con más de un tercio de este proceso de ecologización. 1. Este hallazgo es sorprendente dado el problema general del uso excesivo de la tierra en países superpoblados".

Rama Nemani, científico del Centro de Investigación Ames de la NASA, dijo: "Estos datos a largo plazo nos permiten analizar los factores detrás del enverdecimiento de la superficie. Inicialmente pensamos que el aumento de la vegetación se debía a más emisiones de dióxido de carbono". en un clima más cálido y húmedo adecuado para el crecimiento”.

"Los datos de MODIS nos permitieron comprender este fenómeno a escalas muy pequeñas y descubrimos que la actividad humana también contribuyó".

Según un artículo de la NASA, el 42 % de la contribución de China al proceso global de ecologización proviene de proyectos de forestación, que han desempeñado un papel en la reducción de la erosión del suelo, la contaminación del aire y el cambio climático.

Según informes anteriores de Observer.com, en 2017 mi país completó un total de 7.362 millones de hectáreas de forestación y 8.302 millones de hectáreas de cuidado de bosques. Entre ellos, se han forestado 260.000 hectáreas de bosques en el proyecto de protección de los recursos forestales naturales y 912.000 hectáreas en el proyecto de devolución de tierras de cultivo a bosques. Se han reforestado 185.000 hectáreas de bosques en el proyecto de control de fuentes de tormentas de arena Beijing-Tianjin. Se han reforestado 991.000 hectáreas de bosques en proyectos clave del sistema de cinturones protectores, como los Tres Nortes y la cuenca del río Yangtze. Completar la tarea de construcción de 680.000 hectáreas de bosque de reserva nacional.

'''

palabras clave = jiagu.palabras clave (texto, 5) # palabras clave

imprimir (palabras clave)

                                                     Figura 2-12 Ejecución de la extracción de palabras clave

2.3.6 Análisis de sentimiento

el código se muestra a continuación:

importar jiagu

text = 'muy desagradable o un holgazán'

sentimiento = jiagu.sentimiento(texto)

imprimir (sentimiento)

                                                    Figura 2-13 Ejecución de análisis de opinión

2.3.7 Agrupación de texto

el código se muestra a continuación:

importar jiagu

documentos = [

        "Baidu Deep Learning Chinese Sentiment Analysis Tool Senta Trial and Online Test",

        "El análisis de sentimientos es un tema candente en el procesamiento del lenguaje natural",

        "Resumen del código y soluciones relacionadas con la competencia de minería de texto AI Challenger 2018",

        "Práctica de aprendizaje profundo: hacer análisis de opinión de texto de revisión de película desde cero",

        "Resumen de documentos, artículos y recursos de código relacionados con BERT",

        "Codifica oraciones de diferentes longitudes con el modelo de preentrenamiento BERT y mapéalas en un vector de longitud fija",

        "Introducción al kit de herramientas de procesamiento del lenguaje natural spaCy",

        "Ahora puede probar rápidamente las funciones relevantes de spaCy. Tomemos como ejemplo los datos en inglés. Actualmente, spaCy admite principalmente inglés y alemán".

    ]

clúster = jiagu.text_cluster(docs)

imprimir (grupo)

                                                   Figura 2-14 Ejecución de agrupación de texto


2.3.8 Descripción de parte del discurso

n sustantivo común nt tiempo sustantivo nd lugar sustantivo nl lugar sustantivo

nh nombre nhf apellido nhs nombre ns nombre del lugar 

ni institución nombre nz otro nombre propio v verbo

vd verbo direccional vl verbo de enlace vu verbo dispuesto un adjetivo

f diferenciador m numeral q cuantificador d adverbio

r pronombre p preposición c conjunción nn apellido

u partícula e interjección o onomatopeya

i modismo j abreviatura h componente prefijado

k seguido del componente g morfema x no morfema

w signo de puntuación ws cadena de caracteres no chinos wu otros símbolos desconocidos

2.3.9 Descripción de las entidades nombradas

B-PER, I-PER nombre

B-LOC, I-LOC nombres de lugares

B-ORG, I-ORG nombre de la institución

2.4 Informe y resolución de errores

Error 1: error de ejecución del código: TypeError: la población debe ser una secuencia o un conjunto. Para dictados, use list(d)

Resuelva el error 1:

Modificación: simplemente envuélvalo con list ()

características = random.sample(list(dataSet.columns.values[:-1]), int(math.sqrt(m - 1)))

3. Enlace interactivo entre OPENKG y Neo4j

3.1 Diseño funcional

OpenKG se centra principalmente en la apertura de los datos del mapa de conocimiento (o datos estructurados, datos semánticos, base de conocimiento) OpenKG es un tipo de datos abiertos en un sentido amplio. Es un proyecto de alianza de comunidad de gráfico de conocimiento abierto iniciado y defendido por el Comité Profesional de Computación de Lenguaje y Conocimiento de la Sociedad de Información China de China en 2015. Su objetivo es promover la apertura, la interconexión y el crowdsourcing de datos de gráficos de conocimiento basados ​​en China, así como el código abierto y el trabajo abierto de algoritmos, herramientas y plataformas de gráficos de conocimiento.

Neo4j es una base de datos NOSQL de alto rendimiento que almacena datos estructurados en la red en lugar de tablas. Es un motor de persistencia de Java integrado, basado en disco, con funciones transaccionales completas. Neo4j también se puede considerar como un motor gráfico de alto rendimiento que tiene todas las características de una base de datos madura. Inicie sesión en el mapa de conocimiento abierto chino de openKG para obtener el archivo csv del mapa, importe el archivo en neo4j y ejecútelo, y luego visualice el mapa y visualice la conexión de la relación. En este proyecto de openKG y neo4j, aprenderé a importar el CSV del mapa de conocimientos de Neo4j a la enciclopedia de conocimientos sobre peces marinos.

Proceso de importación de 3.2 csv

3.2.1 Descargar archivo csv

Luego ingresamos al sitio web oficial de OpenKG para descargar el archivo CSV del mapa de conocimiento de la enciclopedia de peces marinos, como se muestra en la Figura 3-2. Su formato de codificación csv es el formato UTF-8.

      

                                      Figura 3-1 Descargar archivo CSV desde la página web

                                              Figura 3-2 Archivo CSV descargado

3.2.2 Importar archivo csv

El siguiente paso es importar el archivo csv, primero podemos ingresar al directorio principal E:\NEO4J_HOME\bin de neo4j

Luego ingrese el comando en cmd, como se muestra en la Figura 3-3, luego espere unos segundos y los dos archivos csv se pueden importar con éxito.

Mostrar importar 37449 nodos (nodo), 114863 relaciones (relación), 572742 propiedades.

     

                                                     Figura 3-3 Importación exitosa del archivo csv

3.2.3 Modificar la base de datos predeterminada de neo4j

Modifique el archivo de configuración, cambie dbms.active_database = neo4j.db en neo4j.conf en la carpeta conf para

dbms.active_database = su propio nombre de base de datos.db, y elimine el # al frente.

Aquí modifico neo4j a onepice.db

                                                Figura 3-4 Modificar la base de datos predeterminada de neo4j

3.2.4 Ejecutar e iniciar la versión web de Neo4j

Primero, ingresamos NEO4J_HOME\bin\, abrimos cmd, ingresamos neo4j.bat.console para ejecutar la página web de neo4j e ingresamos la dirección de localhost como http://localhost:7474/ para ver la página web, como se muestra en la Figura 3 -1.

     

                                          Figura 3-5 Inicie neo4j en localhost 

3.3 Operación de Visualización y Consulta de Conocimiento

3.3.1 Visualizar todo el mapa de conocimiento

Ingrese en la terminal web local de Neo4j: MATCH (n) RETURN (n).

                                            Figura 3-6 Visualización de gráficos

3.3.2 Consulta de conocimiento

Por ejemplo, si desea consultar los países y regiones de distribución de las crías del Nilo, las anchoas peruanas y las crías de boca de Mozambique en el terminal web local de Neo4j , ingrese:

MATCH p=()-->() RETURN p LIMIT 25, ingrese como se muestra en la siguiente figura.

                                                       Figura 3-7 Consulta de conocimiento

Supongo que te gusta

Origin blog.csdn.net/blink182007/article/details/127574552
Recomendado
Clasificación