Visão geral da representação de texto

Representação de texto

A representação de texto é uma tarefa básica em tarefas de processamento de linguagem natural. Uma boa representação de texto tem um efeito determinante muito crítico nas tarefas posteriores. As mais comuns são agrupamento e classificação de texto.

  • Introdução A forma
    de descrever uma frase pode realmente ser considerada sob dois aspectos. O primeiro é mostrar que a frase é composta por sequências de palavras , de modo que a representação da frase pode ser representada naturalmente pela subseqüência que a constitui; , a frase é um texto, os elementos constituintes, a frase pode ser composta de capítulos frases ambiente pode- se dizer que o bom senso aqui aplicado é informação local .

  • Método de representação tradicional
    O método de representação tradicional aqui é para a atual onda de aprendizado profundo que está em chamas.
    (1) A representação de caracteres do texto é diretamente representada por palavras de frase ou informações ngram de palavras. A desvantagem é que não-números não podem ser calculados matematicamente e só podem ser correspondidos, e a similaridade de palavras só pode ser expressa por dicionários externos.
    (2) A expressão quantitativa do texto, como one-hot, tf-idf, etc., com uma certa quantidade de informações estatísticas, indicando que o efeito foi melhorado e que há uma expressão matemática que pode ser calculada pela fórmula da distância. A desvantagem é O vetor esparso ocupa muito espaço e a semelhança das palavras não pode ser bem descrita.
    (3) O algoritmo hash local, acho que é usado para sentenças de comprimento médio, muito longo e muito curto não são bons e é sensível à sintaxe e à ordem.
    (4) doc2vec, o pacote gensim possui dois métodos, LSI e doc2vec, LSI depende principalmente da redução da dimensionalidade dos dados, a interpretabilidade não é muito boa e o modelo não é pequeno. doc2vec não é sensível a dados fora do conjunto.

  • Representação de frases com base no aprendizado profundo A representação do
    vetor de frases de aprendizado profundo geralmente está relacionada a tarefas, como a geração de classificação.
    (1) Pular pensamento: com a ajuda de um modelo generativo, a representação da frase é usada para gerar seu contexto, porque a semântica de frases com contextos semelhantes no senso comum também são semelhantes, e a dependência estrutural do texto é relativamente fraca . Porém, verificou-se no experimento que a terminação da palavra tem maior influência em sua expressão.
    (2) Pensamento rápido: com a ajuda de um modelo de classificação, o senso comum é que sentenças adjacentes são mais semanticamente relacionadas do que sentenças não adjacentes. O experimento descobriu que o resultado não é muito estável e algumas frases são ultrajantes, o que pode estar relacionado aos dados de treinamento. Falando em classificação, parece o modelo de correspondência semântica DSSM em princípio. Ou seja, a classificação é essencialmente um problema de mapeamento espacial.Quando o rótulo de classificação é semântica de frase, a tarefa de downstream da tarefa de classificação é removida, e a representação de codificação pode ser uma representação semântica. A categoria é muito espessa.

  • Representação de sentenças com base no modelo de linguagem
    (1) bert: Este é o fogo verdadeiro, usando a correlação entre palavras e a correlação entre sentenças. Também gosto de: ELMo, GPT, etc. Isso não será expandido aqui. O modelo de linguagem requer uma grande quantidade de corpus de treinamento e recursos de computação de alto desempenho, que não são acessíveis para noites comuns.

Acho que você gosta

Origin blog.csdn.net/cyinfi/article/details/81989821
Recomendado
Clasificación