Dieciocho categorías de preguntas clave para la revisión de la ingeniería del conocimiento (13-18)

Visión general de las cuestiones clave

Continuando con los dos artículos anteriores:
Dieciocho preguntas clave de la revisión de la ingeniería del conocimiento (1-7)
Dieciocho preguntas clave de la revisión de la ingeniería del conocimiento (8-12)

Introducción:
Preguntas y respuestas sobre el conocimiento:
(13) Una breve historia del desarrollo de sistemas de preguntas y respuestas, sistemas representativos o plataformas en diferentes períodos (
14) Tres métodos comunes (principios básicos) de preguntas y respuestas de la base de conocimientos, ¿cuáles son sus ventajas y desventajas?
(15) ¿Cuál es el marco de algoritmo principal del sistema Elasticsearch y del sistema gAnswer? ¿Cuáles son las ventajas y desventajas?
Razonamiento del conocimiento:
(16) Tres formas de razonamiento tradicional
(17) Principios básicos de los algoritmos de razonamiento inductivo PRA y AMIE
(18) Principios básicos y ventajas y desventajas de los modelos embebidos TransE, TransH, TransR, TransC

(13) Una breve historia del desarrollo de sistemas de respuesta a preguntas, sistemas representativos o plataformas en diferentes períodos.

Sobre la historia de los sistemas de respuesta a preguntas:
inserte la descripción de la imagen aquí

Dividido en aproximadamente cuatro etapas:
(1) Sistema experto de respuesta a preguntas basado en plantillas
BaseBall
LUNAR
MACSYMA
SHRDLE

(2) Respuesta a preguntas basada en la recuperación de información: basada en coincidencia de palabras clave + extracción de información, basada en análisis semántico superficial
MASQUE
TREC

(3) Preguntas y respuestas basadas en la comunidad: basándose en las contribuciones de los internautas, el proceso de preguntas y respuestas se basa en la tecnología de recuperación de palabras clave
yahoo
Baidu
Sogou
Zhihu

(4) Respuesta a preguntas basada en gráfico de conocimiento: base de conocimiento, análisis semántico
ProBase
Wolfram Alpha

(14) ¿Cuáles son las ventajas y desventajas de los tres métodos comunes (principios básicos) de respuesta a preguntas de la base de conocimientos?

enfoque basado en plantillas

Tomando el método TBSL como ejemplo para explicar,
se divide en tres pasos: definición de plantilla, generación de plantilla, comparación de plantilla
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
Pros y contras de los métodos de respuesta a preguntas basados ​​en plantillas:
Ventajas:
(1) La velocidad de respuesta de la consulta de plantilla es rápida
(2) La tasa de precisión es alta y puede responder preguntas compuestas relativamente complejas

Desventajas:
(1) La estructura de la plantilla definida artificialmente a menudo no puede coincidir con las preguntas de los usuarios reales
(2) Para hacer coincidir tantas expresiones diferentes de la pregunta anterior como sea posible, es necesario crear una enorme biblioteca de plantillas, lo que requiere mucho tiempo y laborioso Se reduce la eficiencia de las consultas

Enfoques basados ​​en el análisis semántico (preguntas y respuestas)

  • mapeo de recursos
  • Forma lógica
  • generación de respuestas candidatas
  • para ordenar

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

pausa aquí

Ventajas y desventajas de los métodos de respuesta a preguntas basados ​​en el análisis semántico
Su objetivo es entrenar a Parer a través de una colección de preguntas y respuestas en una base de conocimiento a gran escala.Ventajas
:
Se puede obtener de la gente común con relativa facilidad.Desventajas
:
(1) Debe ser escrito por expertos, lo que resulta en un progreso lento. , costoso y no escalable
(2) Solo se puede promocionar en áreas restringidas

Enfoques basados ​​en el aprendizaje profundo

Ventajas:
no es necesario escribir plantillas de definición de reglas manualmente y todo el proceso de aprendizaje es automático

Desventajas:
(1) En la actualidad, solo puede tratar con preguntas simples y problemas de relaciones unilaterales
(2) Los métodos de aprendizaje profundo generalmente no incluyen operaciones de agrupación, por lo que no pueden tratar con problemas de tiempo

(14) (Sistema de respuesta a preguntas de la base de conocimientos, KBQA) ¿Cuál es el marco de algoritmo principal del sistema Elasticsearch y del sistema gAnswer? ¿Cuáles son las ventajas y desventajas?

Los métodos de respuesta a preguntas de la base de conocimientos se pueden dividir en dos categorías: métodos basados ​​en el análisis semántico y métodos basados ​​en la recuperación de información. Para los dos métodos, presentamos dos sistemas de respuesta a preguntas de base de conocimiento: sistema Elasticsearch (método basado en análisis semántico) y gAnswer (método basado en recuperación de información)

Sistema de búsqueda elástica

La pregunta y respuesta de conocimiento del sistema Elasticsearch se implementa principalmente en base a las siguientes cuatro funciones, es decir, está diseñada principalmente para responder las siguientes cuatro preguntas:
(1) Pregunta y respuesta basada en la recuperación de entidades
(2) Pregunta y respuesta basada en en la recuperación de atributos de entidad
(3) Basado en preguntas y respuestas de múltiples saltos para consultas
(4) Preguntas y respuestas para consultas de entidades basadas en valores de atributos

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

Proceso de preguntas y respuestas de conocimiento basado en Elasticsearch:
(1) Preparación de datos: convierta el conjunto de datos en formato JSON y expanda los sinónimos de atributos si es necesario
(2) Importe Elasticsearch: en Elasticsearch: cree índices y escriba índices en Elasticsearch e importe JSON datos
(3) Transforme el lenguaje natural en forma lógica: analice el lenguaje natural y genere una forma lógica
(4) Traduzca la forma lógica en una declaración de consulta ES: genere una declaración de consulta ES y ejecute la consulta

  • Preparación de datos: Elasticsearch requiere que el formato de entrada de los documentos sea JSON, por lo que los datos de texto txt deben convertirse al formato JSON. Después de convertir el conjunto de datos en formato JSON, cada entidad corresponde a un objeto json, que es un documento en Elasticsearch.

  • Importación de datos: Elasticsearch usa el índice y el tipo para administrar los documentos importados. Entre ellos, el índice se puede comparar con una base de datos separada, que almacena documentos con una estructura similar; el tipo es una subestructura del índice, que puede almacenar diferentes partes de datos; el tipo se puede comparar con una tabla, y cada artículo se almacena en un tipo es similar a un registro almacenado en una tabla.
    inserte la descripción de la imagen aquí

  • El análisis del lenguaje natural (conversión del lenguaje natural en forma lógica)
    basado en las preguntas y respuestas de conocimiento de Elasticsearch necesita reservar previamente la plantilla de forma lógica (forma lógica) primero y luego usar las preguntas de lenguaje natural analizadas para completar la plantilla para generar la forma lógica

inserte la descripción de la imagen aquí

  • La forma lógica se traduce a una declaración de consulta ES: después de generar la forma lógica, se aclaran las entidades y los atributos que deben consultarse, así como el tipo de consulta, por lo que la forma lógica se puede traducir directamente a una declaración de consulta ES usando la plantilla ES correspondiente; del mismo modo, para cada tipo de consulta, se requiere una plantilla ES predefinida. Luego use el formulario lógico para completar la plantilla para generar la declaración de consulta final
    inserte la descripción de la imagen aquí

Ventajas y desventajas del sistema Elasticsearch (método basado en análisis semántico)

Ventajas:
(1) Índice y búsqueda distribuidos
(2) Fragmentación automática de índices y equilibrio de carga
(3) Descubrimiento automático de máquinas y clústeres de componentes
(4) Compatibilidad con la interfaz Restful Fengge
(5) Configuración sencilla

Desventajas:
(1) Solo se admiten consultas de oraciones naturales simples y no se pueden responder preguntas complejas
(2) Cuando es necesario agregar nuevos datos y nuevos campos, es posible que ElasticSearch deba volver a modificar el formato de búsqueda
(3) El método Elasticsearch se basa en símbolos La coincidencia lógica y simbólica crea lagunas semánticas

Sistema gAnswer (método de respuesta a preguntas basado en la recuperación de información)

gAnswer aborda específicamente los siguientes dos desafíos de RDF Q/A:
(1) Desambiguación semántica (mapeo de recursos), es decir, cómo mapear frases de entidad ambiguas y frases relacionales en preguntas de lenguaje natural a entidades identificadas en la base de conocimiento y predicados. Por ejemplo, la frase "PaulAnderson"
puede tener varias entidades candidatas, como <Paul S. Anderson> y <Paul WS Anderson> en la base de conocimiento, y debemos eliminar la ambigüedad de las incorrectas y encontrar su asignación correcta
(2) construcción de consulta (Combinación semántica), es decir, cómo unir las entidades mapeadas y los predicados en una consulta SPARQL completa

inserte la descripción de la imagen aquí
Función del sistema gAnswer: primero convierta las preguntas en lenguaje natural en un gráfico de consulta que contenga información semántica, luego convierta el gráfico de consulta en una consulta SPARQL estándar, ejecute estas consultas en la base de datos de gráficos y finalmente obtenga la respuesta del usuario marco del sistema gAnswer conocimiento de gAnswer Sistemas de respuesta
inserte la descripción de la imagen aquí
a
preguntas combine la desambiguación y la evaluación de consultas utilizando dos marcos basados ​​en datos

  • Un marco de relación primero que resuelve la ambigüedad de los enlaces de frase en la evaluación de consultas
  • Se han resuelto los marcos de primer nodo, la vinculación de frases y la ambigüedad en la estructura del gráfico de consulta.

Para el marco de la relación primero

Primero use el diccionario de narración de predicados para identificar la relación (predicado) en el problema y luego use las reglas heurísticas para determinar los nodos (entidades/palabras interrogativas) en
ambos lados .

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
Explicaremos el diagrama de flujo anterior:
el primer paso es extraer todas las relaciones semánticas, y cada relación semántica corresponde a un borde en el gráfico de consulta semántica. Si dos relaciones semánticas tienen un nodo común, entonces comparten un punto final en el gráfico de consulta semántica. En el gráfico anterior, podemos obtener dos relaciones semánticas.
inserte la descripción de la imagen aquí
En el segundo paso, busque el subgráfico del gráfico RDF que coincida con el gráfico de consulta semántica. El emparejamiento se define en términos de isomorfismo de subgrafo. Cada coincidencia de subgráfico obtiene una puntuación, y el objetivo es encontrar todas las coincidencias de subgráfico con las K puntuaciones más altas. Cada coincidencia de subgráfico del gráfico de consulta semántica implica una respuesta a una pregunta de lenguaje natural

Más arriba, después de que establecimos las ventajas del marco de la relación primero, desarrollaremos las desventajas del marco de la relación primero:
(1) Algunas relaciones son difíciles de extraer. Si la relación no aparece explícitamente en la oración de pregunta, es difícil extraer esta relación semántica, porque la extracción de la relación se basa en la relación mencionada en el diccionario de mención de relaciones, por ejemplo:

inserte la descripción de la imagen aquí
(2) En el marco de la relación primero, la extracción de la relación semántica se basa en el árbol de dependencia sintáctica de las oraciones interrogativas del usuario y la columna vertebral del lenguaje heurístico. Sin embargo, si hay ciertos errores en el árbol de dependencia sintáctica, inevitablemente conducirá a errores estructurales y respuestas incorrectas en el gráfico de consulta semántica.

Para marco de primer nodo

Explicación central: primero identifique los nodos (entidades, categorías, variables) en el problema, luego construya la estructura del gráfico de consulta a través del árbol de dependencia sintáctica y luego asigne predicados candidatos a cada borde en el gráfico

La ventaja de esto : no solo puede identificar múltiples relaciones, sino también manejar relaciones implícitas y no depende de plantillas de estructura gráfica predefinidas
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Ventajas y desventajas de gAnswer
Pros:
(1) Permite la ambigüedad de la frase y la estructura durante la fase de comprensión de la pregunta, empujando la desambiguación a la fase de evaluación de la consulta
(2) Resuelve la ambigüedad de manera efectiva

Contras:
Difícil de resolver problemas complejos.

(16) Tres formas de razonamiento tradicional

Tres formas de razonamiento tradicional:
razonamiento deductivo, razonamiento inductivo y razonamiento abductivo

razonamiento deductivo

Definición: Partiendo de una premisa general y derivando una conclusión específica. Este es un proceso de derivación de lo general a lo especial (Lógica de arriba hacia abajo)

inserte la descripción de la imagen aquí

razonamiento inductivo

Definición: El proceso de razonamiento de resumir e inducir conocimiento abstracto mediante la observación de hechos objetivos. Este es un proceso de derivación de especial a general (lógica de abajo hacia arriba)
Nota: el razonamiento inductivo no es necesariamente correcto

inserte la descripción de la imagen aquí

razonamiento abductivo

Definición: Un proceso de razonamiento que combina el conocimiento de reglas abstractas con fenómenos observados para encontrar posibles causas . Este método presta más atención a la interpretabilidad de los resultados de inferencia.

inserte la descripción de la imagen aquí

(17) (Razonamiento Inductivo del Razonamiento Basado en Reglas [Campo de Aprendizaje Automático]) Principios Básicos del Razonamiento Inductivo Algoritmos PRA y AMIE

El principio básico del algoritmo de razonamiento inductivo PRA - Path Ranking Algorithm, algoritmo de clasificación de rutas

El algoritmo juzga si existe una relación específica entre entidades en función de la ruta entre entidades.

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquíinserte la descripción de la imagen aquí

  • Extracción de características: genere y seleccione una colección de características de ruta. Los métodos para generar rutas incluyen caminata aleatoria, búsqueda primero en amplitud, búsqueda primero en profundidad, etc.
  • Cálculo de características: calcule el valor de característica P(s->t; πj) de cada ejemplo de entrenamiento. Este valor de característica puede representar la probabilidad de partir del nodo de entidad s y llegar al nodo de entidad t a través del camino de relación πj; este valor de característica también se puede expresar como un valor booleano, indicando si hay un camino πj entre la entidad s y la entidad t, este valor de característica, también puede ser la frecuencia de ocurrencia, la frecuencia, etc., del camino entre la entidad s y t
  • Entrenamiento de clasificador: en función de los valores de característica de los ejemplos de entrenamiento, se entrena un clasificador para la relación de destino. Después de entrenar al clasificador, . Este clasificador se puede utilizar para inferir si existe una relación objetivo entre dos entidades.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Principios básicos del algoritmo de inferencia inductiva AMIE (algoritmo de minería de reglas)

Se espera extraer reglas de una base de conocimiento incompleta
Algoritmo de minería de reglas: Para cada relación, comience desde que el cuerpo de la regla está vacío, a través de tres operaciones de expansión, retenga las reglas cuyo soporte sea mayor que el umbral Las
tres operaciones de expansión mencionadas anteriormente: agregar Bordes colgantes, Agregar bordes de instancia, Agregar bordes cerrados
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

(18) Principios básicos y ventajas y desventajas de los modelos integrados TransE, TransH, TransR, TransC

La idea básica del modelo de traducción: representar vectores de entidad en un espacio vectorial denso de baja dimensión y medir la racionalidad de los triples a través de la traducción relacional.
inserte la descripción de la imagen aquí

Trance

La idea básica es considerar la relación r en cada triple (h, r, t) como la traducción de la entidad h a la entidad t, y hacer que h+r y t sean lo más iguales posible ajustando continuamente h, r, t, es decir h+r≈t

re ( h + r , t ) = ∣ h + r − t ∣ L 1 / L 2 d(h+r , t ) = |h+rt|_{L1/L2}re ( h+r ,t )=h+rt L 1 / L 2
inserte la descripción de la imagen aquí
Ventajas de TransE: Desventajas simples
de TransE:
(1) Problema de reflexividad, si la relación r es reflexiva, es decir (h, r, t), (t, r, h)∈G, entonces según el modelo TransE, h = t , r = 0
(2) No adecuado para problemas complejos como uno a muchos, muchos a uno, muchos a muchos

inserte la descripción de la imagen aquí

TransH

Para cada relación r, TransH define un hiperplano wr y una relación dr (la relación dr es en realidad el vector unitario normal del hiperplano wr), y mapea las entidades cabeza y cola en el triplete al hiperplano respectivamente
inserte la descripción de la imagen aquí

Pros de TransH:
cada entidad tiene una representación diferente bajo diferentes relaciones
Desventajas de TransH:
todavía se asume que las entidades y las relaciones están en el mismo espacio semántico

TRANS.

El modelo considera que diferentes relaciones deben tener diferentes espacios semánticos, por lo que se construye un espacio vectorial correspondiente para cada relación. Para cada triplete, la entidad debe proyectarse primero en el espacio relacional correspondiente y luego debe establecerse la relación de traducción de la entidad principal a la entidad final.

inserte la descripción de la imagen aquí

Ventajas de TransR:
diferentes relaciones tienen diferentes espacios semánticos

Desventajas de TransR:
(1) Bajo la misma relación r, las entidades cabeza y cola comparten la misma matriz de proyección, y la matriz de proyección solo está relacionada con la relación (
2) Los parámetros del modelo aumentan y la complejidad computacional aumenta

TransC

Idea básica: codificar cada concepto como una esfera y cada instancia como un vector, en el mismo espacio semántico, usar posiciones relativas para modelar la relación entre conceptos e instancias, conceptos y subconceptos

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Ventajas de TransC:
Distinguir entre conceptos y ejemplos

Desventajas de TransC:
(1) El uso de bolas para representar conceptos es un modelo simple, que es demasiado ingenuo y tiene ciertas limitaciones
(2) Existe el problema de que un concepto puede tener diferentes significados en diferentes tripletas

Supongo que te gusta

Origin blog.csdn.net/m0_53327618/article/details/124917691
Recomendado
Clasificación