Notas de papel: BERT de NLP, ERNIE (o uso do modo pré-treinamento em tarefas de PNL)

Notas de trabalho: O princípio e a aplicação do BERT, o princípio e a evolução do ERNIE

ref:
Explicação detalhada da história de evolução ERNIE-Baidu e cenários de aplicação
Inovação na era Bert: comparação do modelo de aplicativo Bert e outros
do Word Embedding ao modelo Bert - a história do desenvolvimento de tecnologia pré-treinamento no processamento de linguagem natural

1.ELMO: incorporação de modelos de linguagem/representação de palavras profundamente contextualizadas

Comparado com a incorporação de palavras, o ELMO introduz informações contextuais ao construir um modelo de linguagem. Use o contexto antes e o contexto depois para treinar a palavra da posição atual. Ele permite que o modelo de linguagem julgue a semântica de acordo com o conteúdo do contexto, resolvendo assim o problema ambíguo.

Ao mesmo tempo, a ELMO adota o pré-treinamento baseado em recursos. No modelo de pré-treinamento, os resultados (matriz) de cada camada são gerados diretamente e combinados. Alimente os resultados mesclados em tarefas downstream. A vantagem é que a estrutura de rede das tarefas downstream não precisa ser alterada com o ELMO, mas a desvantagem é que não é tão eficaz quanto o modo Fine tuning

2. GPT:Ajuste Fino de Pré-treinamento Generativo

Este artigo propõe de forma inovadora um transformador como um extrator de recursos para pré-processamento unidirecional, seguido por um modo de ajuste fino para tarefas a jusante. Semelhante ao BERT, não tão popular quanto o BERT.

3. BERT:Transformador de representação de econder bidirecional

Ênfase em 1. O modelo básico pré-treinado 2. As tarefas posteriores do ajuste fino.
A razão para o sucesso é 1. Usando transformador 2. Processamento bidirecional de dados

Dois tipos de dados foram usados ​​para treinamento

  1. modelo de linguagem mascarada: 15% de palavras pagas aleatoriamente
  2. previsão da próxima frase: é o próximo/não os próximos rótulos do treinamento

Codificador BERT: Transformador bidirecional multi-camada, atenção slef em ambas as direções.

4.ERNIE:

ERNIE 1.0: Otimização de tarefas chinesas de NLP com base em BERT em 2019
Método de máscara aprimorado:

  1. mascaramento de nível básico, consistente com o BERT original
  2. máscara de nível de frase, a máscara da frase local
  3. máscara de nível de entidade, uma máscara baseada no conhecimento da entidade
    (vale a pena mencionar que a diferença de ERNIE-tsinghua aqui é usar diretamente a incorporação de KG no modelo)

Tarefa DLM: tarefa de modelo de linguagem de diálogo
ERNIE modificou o formulário de entrada de BERT, usando várias rodadas de diálogo, que adicionou uma combinação de incorporação de diálogo de várias rodadas de diálogo

ERNIE2.0: estrutura de pré-treinamento contínuo para a compreensão do idioma
ERNIE2.0 introduz o conceito de aprendizado contínuo/aprendizagem vitalícia. tarefas não é alto. Reduzido
(porque MT-DNN prova que, ao respeitar os idosos, adicionar várias tarefas a jusante e realizar o ajuste fino pode obter diretamente o resultado SoA)

Neste artigo, o ERNIE2.0 usa um método inteligente para evitar o problema do esquecimento na aprendizagem ao longo da vida. Ao manter o modelo de tarefa anterior inalterado, use a cópia para treinar as tarefas subsequentes e obter melhores resultados (consulte aqui
para obter uma descrição detalhada )

Ajuste fino: consistente com
o modelo BERT: a incorporação de tarefa é adicionada,
portanto, há incorporação de tarefa, incorporação de posição, incorporação de segmento, incorporação de token em ERNIE

Supongo que te gusta

Origin blog.csdn.net/jxsdq/article/details/105849839
Recomendado
Clasificación