Notas de lectura de documentos (XI)

Entidad de Enlace con una Base de Conocimiento: Problemas, técnicas y soluciones 笔记 整理

 

 

En primer lugar, el papel de organizar sus pensamientos fluyen

En este artículo de los principales métodos de entidades vinculadas una visión general y análisis exhaustivo, y discutió una variedad de aplicaciones, evaluación del sistema de enlace físico y la dirección futura. Ensayo es un tipo de artículos de divulgación científica.

  1. En primer lugar, se resumen las razones por las entidades puestos de trabajo creadas:

1) una gran cantidad de datos producidos en forma de lenguaje natural, pero en particular los datos de generación de lenguaje natural es ambiguo clase de entidad llamada de datos son altas.

2) Existente base de conocimientos al insertar una nueva entidad o hecho de requerir inevitable referencia a la nueva entidad y la base de conocimiento original enlace entidad.

  1. A continuación, el enlace del artículo en las tareas reales se describen en detalle, se refiere a entidades tarea vinculada se ha dado una base de conocimientos que contiene conjunto de entidades E, y contiene un conjunto de texto llamado entidad M. La tarea es vincular la entidad nombrada conjunto de entidades con referencia a cada entidad entidades de texto a juego enlace repositorio correspondiente. Cada entidad se refiere a una sentencia de texto y m se puede asignar a una entidad definida previamente, si la entidad que corresponde a la base de conocimientos no pudo encontrar ninguna referencia a una entidad, se hará referencia etiquetada NIL la entidad. Por lo general, un sistema de enlace físico incluyen:

Generación de 1) un conjunto de entidades candidatos

2) candidato rango entidad de selección

3) que indica el resultado de la conexión (conexión de predicción de fallos mencionado)

  1. Al principio del artículo también describe la dirección de aplicación de la entidad de enlace:

1) Extracción de la información: el nombre entidad y el sistema de extracción de información de relación por lo general requieren el conocimiento y para enlace disambiguate.

2) Recuperación de la información: se presenta la necesidad de búsqueda entidades semánticas basadas en entidades explícitas en la red mencionada en el texto, con el fin de manejar con mayor precisión entidades semánticas y documentos Web

3) Análisis de contenido

4) Sistema de Q & A

5) la generación de una base de conocimientos

  1. El artículo también describe la corriente de base de conocimiento común simple: Wikipedia, YAGO, DBpedia, Freebase
  2. Después de este documento presenta los diversos componentes de los sistemas de enlaces físicos y los métodos comúnmente utilizados para separar, incluyendo la generación de entidades candidatos, ocupando entidad candidatos, no podemos predecir los enlaces mencionados tres partes.
  3. medios de generación de candidatos cada entidad entidad mencionada m ∈ M, el sistema debe encontrar un conjunto de entidades candidato enlace físico para ello, el conjunto de las entidades candidatas cada entidad es una entidad con base de conocimientos puede mencionar enlace. entidad Candidato genera técnicas principales son comúnmente utilizados

1) diccionario técnica de nombres basado: Wikipedia usando características proporcionadas por (por ejemplo) que se obtiene mediante la combinación de un conjunto de diccionario local. D llamado diccionario es un ⟨key, value⟩ mapa de columnas clave es el nombre de la lista. k Supongamos que es un enlace en la columna denominada valores k.value mapeadas en la columna valor k se refiere a un conjunto de entidades asociadas con el nombre. Diccionario de construcción D es por lo general las siguientes características: página física (Wikipedia describe específicamente la página toda la información que una entidad), la página de redireccionamiento (Wikipedia contiene otras páginas pueden ser relevantes para la misma), página de desambiguación (Wiki página de Wikipedia distinguir varias entidades del mismo nombre), el primer párrafo de las palabras en negrita, el artículo hipervínculos.

2) en forma de superficie identificado por la extensión local de documentos: identificar una pluralidad de nombres de forma mencionados, tales como abreviaturas, alias. El uso de métodos heurísticos (utilizando el método de N-Gram, después de eliminar los acrónimos palabras vacías mismas iniciales, comprobar si la presencia de N palabras consecutivas en todo el documento), un método basado en el aprendizaje supervisado.

3) Sobre la base de un motor de búsqueda

  1. Se refiere a la entidad entidades candidatos clasificación clasifican candidato en el conjunto de las entidades candidato Em produjo a continuación, seleccione el enlace físico más adecuado.

1) supervisada método de aprendizaje: una dicotomía importante (para una determinada entidad mencionada entidades y candidatos, utilizando el clasificador binario para determinar si la entidad mencionada en referencia a la entidad candidato), aprender a procedimiento de rango (clasificación basada en los datos de entrenamiento construye de forma automática modelo, seleccionar la más alta entidad candidato clasificado), el método de verosimilitud (consulta documento se refiere principalmente a la entidad coherente parcial, que están utilizando esta "coherencia tema" para hacer frente a la entidad candidata ordenamiento de problemas), los métodos basados ​​en el gráfico .

2) los métodos de aprendizaje sin supervisión: vector modelo de espacio (cálculo de similitud entre el vector y los vectores candidatos mencionados entidad física), basado en el método de recuperación de información (entidades candidatos indexan como un documento separado, y al extracto para cada entidad y mencionan de la entidad y sus documentos de contexto generan consultas de búsqueda)

  1. Asociado con la función de clasificación de la entidad candidata

1) el texto asociado cuenta con: comparación nombre de la cadena (cadenas comparar sobre la base de similitud), repetida extensión física

2) no está relacionado con la función de texto: Texto Contexto (el texto entre la medida mencionada en la entidad contexto que lo rodea y documentos relacionados con la similitud entidad candidato, por lo general con una bolsa de palabras, el concepto de representación contexto vector), las entidades de enlace el grado de coherencia entre (un documento generalmente se refiere a uno o varios temas relacionados en una entidad coherente, y puede utilizar el tema común de enlaces continuidad a entidades mencionadas en el mismo documento).

  1. Mencionado predicción fallo de enlace:

1) En el puesto más alto con la entidad ETOP una puntuación asociada s. Si la puntuación es inferior a NIL s τ umbral, la entidad de referencia NIL y m es m no se menciona enlace de predicción.

2) basado en el aprendizaje supervisado, los datos de entrenamiento pueden predecir si el enlace mencionado llamado

3) En el método de aprendizaje basado en rango a la entidad como un candidato añadir NIL, NIL salida clasificada como la entidad de más alto rango que se considera vínculo no se menciona.

  1. métricas:

1) Precisión (Precisión): Considerar todas las entidades del sistema de referidos por el enlace, y para determinar cómo el sistema de enlace físico vincula la entidad correcta por referencia

2) Recuperación (Recall): consideran todos los enlaces deben ser entidades mencionadas, para medir adecuadamente la relación entre el enlace y un enlace correspondiente, mencionada entidades todas las entidades mencionadas

3) Medida F1

  1. Posible futura dirección, así como los problemas existentes:

1) El actual sistema de conexión más sólida se han centrado en el enlace físico se detecta entidades mencionadas tareas de documentos no estructurados (tales como artículos de noticias y blog) en. Sin embargo, la entidad menciona también puede ocurrir en otros tipos de datos, y estos tipos de datos necesidad de vincular con el Conocimiento

2) La mayoría de los trabajos sobre las entidades falta de análisis de la complejidad computacional vinculados, por lo que normalmente no evalúan la eficacia y el alcance de sus sistemas

3) establecer la base de conocimientos y el relleno en áreas específicas (por ejemplo, la demanda en el biomédico, el entretenimiento, los productos, las finanzas y el turismo) es cada vez mayor, y por lo tanto los enlaces entidad a áreas específicas también es importante. Enlace a un campo de entidad en particular concentrados en un campo de datos específica, y el conocimiento de las áreas específicas puede tener diferentes estructuras y conocimientos generales

Supongo que te gusta

Origin www.cnblogs.com/hwx1997/p/12444167.html
Recomendado
Clasificación