Corpus y base de conocimiento de idiomas

Tecnología corpus

Un corpus (base de corpus) es una base de datos que almacena materiales de lenguaje. Entonces, como su nombre lo indica, la lingüística del corpus es
un estudio de la lingüística basada en el corpus. Específicamente, la lingüística de corpus es un estudio de los métodos de recopilación, almacenamiento, etiquetado, recuperación y estadísticas del texto legible por máquina en lenguaje natural (o "texto electrónico"). Su propósito es transmitir realidades a gran escala que existan objetivamente. El análisis cuantitativo de los hechos lingüísticos en el texto proporciona soporte para la investigación lingüística o el desarrollo del sistema de procesamiento del lenguaje natural.
El contenido de la investigación lingüística del corpus es muy extenso e involucra muchos aspectos como la construcción y utilización del corpus, que se pueden resumir de la siguiente manera: ① la construcción y compilación del corpus; ②procesamiento y manejo del corpus; Incluyendo aplicaciones en investigación lingüística (discurso, vocabulario e investigación semántica, etc.) y aplicaciones en procesamiento de lenguaje natural.

Tipos de corpus

Según el idioma, se puede dividir en corpus monolingüe y corpus multilingüe; según los diferentes medios de grabación, se puede dividir en corpus de medios únicos y corpus multimedia; según las diferencias geográficas, se puede dividir en corpus nacionales y corpus internacionales. Aquí se presenta principalmente el "cuerpo equilibrado y el cuerpo paralelo" basado en la representatividad y el equilibrio del cuerpo, el "cuerpo general y el cuerpo especial" basado en el uso del cuerpo y el "cuerpo común basado en el tiempo de distribución del cuerpo. El "corpus de tiempo y el corpus diacrónico" y el "corpus crudo y corpus etiquetado" dividido por el grado de procesamiento del contenido del corpus.

  1. Cuerpo equilibrado y cuerpo paralelo El cuerpo
    equilibrado se centra en la representatividad y el equilibrio del cuerpo. Zhang Pu (2003) propuso una vez siete principios de la colección de corpus: autenticidad del corpus, confiabilidad del corpus, cientificidad del corpus, representatividad del corpus, autoridad del corpus, distribución del corpus y circulación del corpus. Entre ellos, la distribución del corpus también debe considerar la distribución del campo científico, la distribución geográfica, la distribución del tiempo y la distribución de género del corpus.
  2. Cuerpo general y cuerpo especial Los
    llamados cuerpo general y cuerpo de equilibrio son en realidad el resultado de mirar el problema desde diferentes ángulos, o el resultado de la confrontación con el campo especial. Para un propósito específico, un corpus compuesto de solo un dominio específico, una región específica, un tiempo específico y un tipo específico de corpus es un corpus dedicado. Por ejemplo, corpus de noticias, corpus de ciencia y tecnología, corpus de primaria y secundaria, corpus de lenguaje hablado de Beijing, etc.
  3. Cuerpo sincrónico y cuerpo diacrónico El
    llamado cuerpo sincrónico es un cuerpo creado para la investigación sincrónica de idiomas. Según el punto de vista de Saussure, la investigación sincrónica se refiere al estudio de las células y las relaciones celulares que se ven en la sección transversal de un árbol grande, es decir, el estudio de la relación entre elementos en un plano sincrónico. No importa cuánto tiempo dure el corpus recolectado, siempre que esté estudiando los elementos o la relación de los elementos en un plano, es una investigación sincrónica, y el corpus establecido es un corpus sincrónico.
    El llamado corpus diacrónico es un corpus establecido para el estudio diacrónico del lenguaje. El resultado estadístico obtenido del corpus diacrónico no es un punto de frecuencia como el resultado estadístico del corpus sincrónico, sino una curva de evolución formada por varios cambios de frecuencia obtenidos por muestreo equidistante en el eje del tiempo. Llamamos a esta curva la tendencia de cambio Figura ".
  4. Cuerpo sin procesar y cuerpo anotado El
    llamado cuerpo sin procesar se refiere a los datos sin procesar del cuerpo (corpus con datos sin procesar) sin ningún procesamiento. El organizador simplemente recolectó el corpus sin agregar ninguna información etiquetada.
    El corpus anotado se refiere a un corpus que ha sido procesado y marcado con información específica. Dependiendo del grado de procesamiento, el corpus anotado se puede subdividir en un corpus de segmentación de palabras (principalmente chino), corpus de segmentación de palabras y etiquetado de parte del discurso, banco de árboles, banco de propuestas y banco de árboles del discurso.

Problemas en la construcción del corpus chino

  1. Estandarización de la construcción del corpus.
  2. Protección de los derechos de propiedad y construcción del corpus nacional.

Corpus típico

  1. LDC Chinese Tree Bank
  2. Biblioteca proposicional, biblioteca de árbol nominalizada y biblioteca de discurso. PropBank, NomBank y Penn Discourse Tree Bank (PDTB) son extensiones de Penn Tree Bank.
  3. Banco de árbol de dependencia de Praga
  4. BTEC corpus hablado
  5. Corpus del idioma hablado chino moderno
  6. Corpus del Instituto de Investigación de Taiwán

Base de conocimiento de idiomas

La "base de conocimiento del idioma" contiene un contenido más extenso que el "corpus". En términos generales, la base de conocimientos de idiomas se pueden dividir en dos tipos diferentes: uno es el diccionario, base de reglas, el idioma
que significa el concepto de bibliotecas, donde el lenguaje de representación del conocimiento es dominante, estructura formal puede ser descrito, y el otro El conocimiento del idioma existe en el corpus, y se determina la categoría, el significado y el uso de cada unidad de idioma. El cuerpo principal del corpus es el texto, es decir, una colección de oraciones, cada oración es una secuencia lineal no estructurada de palabras, y el conocimiento que contiene es implícito. El propósito del procesamiento del corpus es hacer explícito el conocimiento tácito para facilitar el aprendizaje automático y la cita.

  1. WordNet
  2. FrameNet
  3. EDR
  4. Base de conocimiento integral de idiomas de la Universidad de Pekín
  5. HowNet
  6. Red jerárquica conceptual
304 artículos originales publicados · 51 alabanzas · 140,000 visitas

Supongo que te gusta

Origin blog.csdn.net/qq_39905917/article/details/99876329
Recomendado
Clasificación