notas de lectura de la literatura (cinco)

2019 Diario de la Web Semantics_Linking y entidades de desambiguación a través de grafos RDF heterogéneos 笔记 整理

 

 

En primer lugar, el papel de organizar sus pensamientos fluyen

1.1 trabajos de investigación relacionados

  1. CBD (descripciones concisas Limitado) concisa delimitada Descripción
  2. Reducir las dificultades que se presentan cuando los parámetros de datos de identificación manual de (por ejemplo, qué atributo se selecciona como un marcador)
  3. Según la clasificación de los datos de un gran número de ejemplos semánticas y prácticas heterogéneas de casos
  4. marco de análisis de ejemplos de CDB propuesta en base a la representación y la comparación de las fuentes de datos en la etapa de adaptación
  5. Una nueva estrategia para identificar automáticamente propiedades Eliminar "problema" entre los dos conjuntos de datos (no adecuadas como un atributo de etiqueta)
  6. Para un gran número de medida de referencia de código abierto después de muchas pruebas (puntos de referencia miden)
  7. Ejemplos de sistemas de código abierto tienen una sencilla interfaz interactiva de la propuesta
  8. Propuso por primera vez la clasificación de datos heterogéneos: De acuerdo con estudios previos, este documento se centra en la diferente entre los dos conjuntos de datos de manera que se encontró una descripción de la forma de la heterogeneidad (atributo o categoría) valor y la estructura. En este artículo, en particular los tests sintéticos preocupación y el uso de la realidad muy heterogénea de la música clásica y un gran número de conjuntos de datos IM @ OAEI genera.

1.2 tesis problema

Papeles proceso de resolución de problemas 1.3

1) heterogénea dimensión valor de datos: El término heterogeneidad (debido sinonimia, palabras producen ambigüedad en diferentes palabras, sino también un pequeño número de errores de ortografía), la heterogeneidad idioma (diferentes entre sí debido a la traducción de idiomas ), los datos de atributos y los atributos de objeto heterogeneidad (información puede ser representado como un txt puede ser representado por la url)

2) dimensiones físicas Heterogeneidad: estructura de heterogeneidad (debido a diferentes tamaños de partículas resultado), diferentes profundidades de la heterogeneidad de las propiedades (la misma información en diferentes figuras puede ser la fuente de la información), describen heterogénea (un ejemplo en otro conjunto de datos que se puede describir más información), una heterogeneidad de palabras clave

3) la heterogeneidad dimensiones lógicas: clasificación heterogeneidad, atributos heterogeneidad

4) las dimensiones de calidad de datos Heterogeneidad: heterogeneidad de tipos de datos, conjunto de datos de consistencia

  1. Consta de preprocesamiento el enlace de datos (configuración de parámetros, de procesamiento de datos), a juego, después del tratamiento (eliminación de enlaces rotos, insertar el nuevo enlace). Este documento teniendo en cuenta los detalles del proceso antes de la ejemplo de comparación de fase real, es decir, simplificar y automatizar preprocesamiento etapa.
  2. Selección y clasificación propiedades: mucho debido a la tecla clave generada automáticamente actual no pueden ser generadas por el sistema como un identificador. Por lo tanto, la clave de medición de impacto será muy importante, la clave generada mediante la selección de la medida más útil de los dos conjuntos de datos vinculados como una etiqueta.
  3. Enlace Especificación: proporciona como una comparación entre los dos conjuntos de elementos de datos, nota criterio de similitud complejo de medida de similitud, la configuración del umbral medida de similitud de unión
  4. Legato de enlace de datos: El sistema será de dos gráfico RDF como entrada, y luego tratado previamente de forma automática y luego a través de la instancia etapa de adaptación, el ejemplo desambiguación, generar un conjunto de conexión de enlace seleccionado como el resultado final.
  5. Definiciones relacionadas:

1) Como se usa en el presente documento, "fuente" o "ejemplo" (recurso \ ejemplo) como un identificador de una entidad (usualmente triplete s)

2) llave de datos RDF: dos fuentes conocidas s1, s2, y su predicado (atributo). Que toda la s1 clave, las mismas propiedades de valores de atributo K s2 = {P: P ⊆pred (G), cualquiera de s1, s2 ∈ subj (G) y p (s1) = p (s2), el ∀p ∈ P}

  1. CDB: la figura gráfico sub RDF, el subgrafo es una fuente de R, S Este es el subgrafo que comprende de todos los triples R, y en este caso o triples el CDB está en blanco y este nodo en blanco s nodo triples
  2. Enlace de Datos: Encuentra toda la equivalencia grafo RDF entre las dos propiedades
  3. Antes de la CDB (r) de la siguiente: o R para los trillizos
  4. El CBD (r) sucesor: triplete en el r a s
  5. ↑ CBD (r): incluyendo el CBD (r) y la totalidad de su predecesor
  6. ↓ CBD (r): que comprende un CBD (r) y todos sus sucesores
  7. ↕ CBD (r): incluyendo el CBD (r) y la totalidad de su predecesor, sucesor
  8. CDB * (r): incluye todos los triples superiores, incluidas las
  9. Ejemplos Análisis: componente de texto RDF gráfico G es L (G), la instancia de la f texto (r) es el conjunto de todos los L (G) que pertenece a la CDB *
  10. módulo de configuración Legato:

1) filtrado de atributo: filtrando no como identificadores de atributo, dejando sólo un único atributo como los identificadores de atributo dos fuentes

2) Módulo principal coincidente: Ejemplos incluyen los basados ​​en el análisis de CDB, casos mapeados al análisis vectorial (mapeo a instancias del espacio de vector y el vector que sea limitante y es ponderada), los basados ​​en las características determinadas vectores ejemplos

  1. Ejemplos módulo de desambiguación: el espacio vectorial como una entrada, y finalmente genera una similitud estándar a agregado (que tiene conjuntos de datos de alta similitud juntos), y así generar enlaces de conjunto de candidatos.
  2. Enlaces se combinaron: l para cualquier enlace entre las dos fuentes (rs de origen y de destino rt) = (rs, rt) colocados en los enlaces del conjunto candidato, y luego determinar la concentración mirando l '= (rs, r' t), Si se encuentra entonces l concentrado elimina del candidato.
  3. La heterogeneidad de determinar el conjunto de datos

1) valores de datos Heterogeneidad: el paquete y los ejemplos se consideren como palabra asignada al vector, calcula un vector de similitud

Considere el uso de CDB para en profundidad desde el nodo de origen n: 2) La heterogeneidad Logical

1.4 Métodos experimentales de papel usado

  1. El conjunto de datos utilizado: DOREMUS (incluyendo 9-HT, 4-HT (heterogeneidades) y FP-trampa (falsos positivos trampa)), el conjunto de datos sintético (SPIMBENCH 2015, SPIMBENCH 2016, SPIMBENCH 2017)
  2. Definir contexto

1) atributo problema generación medida de Identificación Automática enlace (atributo para evaluar automáticamente la eficiencia del módulo de filtración)

2) Análisis de ejemplos seleccionados de

3) Efecto por ejemplo utilizando las teclas de disambiguated

4) comparar el Legato global con otros sistemas

5) comparación automática Legato con otros métodos de generación de enlaces

  1. Use indicadores: Fm, P, R
  2. eficiencia propiedades de filtración: considerar todas las propiedades del problema es DOREMUS después fijar evaluaron los datos de atributos eliminados. Se encontró que un método que utiliza una propiedades de filtrado automáticos en HT, los datos 9-HT establece un mejor rendimiento
  3. Análisis Eficiencia Ejemplo: Considere el uso de análisis diferente a la del ejemplo Legato, un conjunto de datos OAEI2017. Se encontró que el análisis consideró ↕ CDB conseguir una mayor puntuación Fm
  4. La eficiencia del proceso posterior: la consideración principal, y los ejemplos del módulo de enlaces de desambiguación de combinación, utilizando DOREMUS2017 conjunto de datos. Tenga en cuenta los enlaces de conjunto de candidatos en proporción a determinar la proporción de concentrado, suprimir o añadir enlaces. Se encontró que los procedimientos de seguimiento en el conjunto de datos muy similares es extremadamente importante.
  5. La eficiencia global: utilizando la versión automática de Legato, en comparación con la herramienta de la competencia de IM @ OAEI2015,2016,2017. Se encontró que cuando el rendimiento de Legato heterogeneidad en el conjunto de datos contiene una buena dimensiones sólidas
  6. Generación automática de la eficiencia enlaces: Legato con el águila y se compararon WOMBAT, el rendimiento Legato aún mejor.

La evaluación final de los resultados de experimentos 1,5

1.6 documento de seguimiento

centrarse en el futuro en la complementariedad de información entre los conjuntos de datos que resuelven entidades son atributos complementarios describe y existe en diferentes conjuntos de datos en RDF problemas de causas de la falta de información comparativa

En segundo lugar, la innovación de papel

Una nueva quitar las propiedades de identificación automática "problema" entre el marco de la política de dos conjuntos de datos pueden descubrir automáticamente enlace Legato entre grafos RDF

En tercer lugar, las técnicas y los métodos utilizados en el documento

IM @ método OAEI

RDF y otra herramienta de auto-enlace EAGLE

marco legato

En cuarto lugar, las referencias de lectura recomendados

 [48], [51], http://islab.di.unimi.it/content/im_oaei/2016 , [5]

Supongo que te gusta

Origin www.cnblogs.com/hwx1997/p/12444108.html
Recomendado
Clasificación