Modelo grande de diálogo DAMO Academy SPACE: modelo de linguagem pré-treinado, modelo de diálogo pré-treinado, injeção de conhecimento

01 Modelo de linguagem pré-treinado VS modelo de diálogo pré-treinado

1.  Modelo de linguagem em grande escala

O maior progresso no campo da PNL nos últimos anos tem sido o surgimento e o uso em larga escala de modelos pré-treinados em larga escala. Os modelos de linguagem pré-treinados desenvolveram-se muito e surgiram muitas variantes. No entanto, eles ainda são essencialmente modelos de linguagem. Conforme mostrado no fluxograma do lado direito da figura acima, a entrada é basicamente texto livre na Internet, os modelos são basicamente estruturas Transformer e os objetivos de otimização são basicamente MLM (Mask Modelo de linguagem).

Modelos de linguagem pré-treinados trouxeram grande progresso para todo o campo da PNL.Depois de chegar ao campo do diálogo, mais recursos exclusivos no campo do diálogo podem ser extraídos posteriormente. Como mostrado na figura acima, o texto livre na rede à esquerda é o corpus necessário para modelos de pré-treinamento em grande escala, e o corpus à direita representa o diálogo. Intuitivamente, há uma grande diferença.

O diálogo é uma aplicação avançada da linguagem e possui as seguintes características principais:

① Expressão coloquial, casual, não necessariamente gramatical, frases incompletas, muito ruído e muitos erros de ASR.

② Divida os papéis em múltiplas rodadas, com pelo menos dois sujeitos participantes, entre as rodadas há omissões, referências, herança de estado, esquecimento de estado, etc.

③Restrições de conhecimento vertical. Cada tarefa de diálogo tem suas próprias restrições de conhecimento e o modelo precisa ser utilizado de maneira direcionada.

④ A compreensão semântica profunda requer uma compreensão profunda da linguagem, Intent-Slots/raciocínio lógico, etc.

⑤ Preste atenção às estratégias de diálogo. Para cumprir objetivos de tarefas específicas, você precisa saber o que dizer.

2.  Modelo de linguagem pré-treinado VS modelo de diálogo pré-treinado

Com base nas características únicas dos dados de diálogo, um modelo de diálogo pré-treinado exclusivo é desenvolvido com base no modelo pré-treinado. Conforme mostrado no lado esquerdo da figura acima, o objetivo de otimização do modelo de linguagem pré-treinado é responder que tipo de sentenças são mais parecidas com a linguagem natural; enquanto o lado direito da figura acima representa o modelo de diálogo pré-treinado. Do ponto de vista ponta a ponta, seu objetivo de otimização É necessário responder que tipo de resposta é mais razoável dado o histórico da conversa. Esta é uma grande diferença entre modelos de linguagem pré-treinados e modelos de diálogo pré-treinados.

3.  Progressos nos modelos de diálogo pré-formação

O diálogo é dividido principalmente em três partes: compreensão do diálogo, estratégia de diálogo e geração de diálogo. No início de 2021, houve muito desenvolvimento nos modelos de diálogo pré-treinados. Conforme mostrado na figura abaixo, no campo da compreensão do diálogo, a PolyAI propôs o modelo ConveRT em 2019, a Salesforce propôs o modelo TOD-BERT em 2020 e a JingDong propôs o modelo DialogBERT em 2021.

O surgimento de modelos de diálogo pré-treinados orientados para a compreensão trouxe enormes melhorias para a compreensão do diálogo em comparação com modelos de linguagem pré-treinados.Como mostrado na figura acima, um artigo sobre EMNLP2020 (Probing Task-Oriented Dialogue Representation from Language Models) resultados experimentais mostram que, em comparação com modelos de linguagem pré-treinados, os modelos de diálogo pré-treinados podem melhorar o desempenho das tarefas de compreensão do diálogo em mais de 10%; na ​​aprendizagem de representações, eles também podem aprender melhores representações e ter melhor efeito de agrupamento. Isto pode ser entendido de uma forma popular, porque os actuais modelos de pré-formação (incluindo modelos de linguagem e diálogo) são essencialmente orientados por dados.Portanto, os modelos de pré-formação treinados em dados de diálogo são naturalmente melhores no diálogo do que os modelos treinados em texto livre. Os campos são mais expressivos.

Além da compreensão do diálogo, existe também o campo da geração de diálogo.

A Microsoft propôs o DialoGPT em 2019, o Google propôs o Meena em 2020, o Facebook propôs o Blender em 2020 e o Baidu propôs o PLATO-2 em 2021. O surgimento desses modelos também trouxe grandes melhorias na qualidade da geração de diálogo. Conforme mostrado na figura abaixo, o modelo Blender do Facebook aumentou sua taxa de vitórias no Teste A/B de 23% para 49% de 2018 a 2020.

O texto acima é uma breve introdução a todo o modelo de diálogo pré-treinado, o que é muito útil para a compreensão do modelo proposto neste artigo. Em geral, o surgimento de modelos de linguagem pré-treinados melhorou muito o desempenho de todas as tarefas de PNL, e os modelos de diálogo pré-treinados baseados em modelos de linguagem pré-treinados melhoraram ainda mais o desempenho das tarefas de PNL no campo do diálogo. Portanto, o diálogo inteligente baseado em modelos de diálogo pré-treinados tornou-se um modelo básico.

--

02 “Não há diálogo sem conhecimento”: O conhecimento é a base do diálogo

Outra característica muito importante do diálogo é que ele depende fortemente do conhecimento. Em outras palavras, o conhecimento é a base do diálogo.

Como pode ser visto na arquitetura de diálogo na figura acima, os mecanismos de diálogo convencionais de nível superior , como diálogo multi-rodada, perguntas e respostas de gráfico, perguntas e respostas de tabela, perguntas e respostas de controle de qualidade, perguntas e respostas de documentos, bate-papo, etc., são divididos com base no conhecimento subjacente . Por exemplo, o mecanismo de diálogo multivoltas é baseado principalmente no fluxograma de diálogo; a pergunta e resposta do gráfico depende do conhecimento do gráfico de conhecimento, etc. Além desses conhecimentos óbvios, se você quiser fazer um bom trabalho no diálogo inteligente, também precisará de alguns outros conhecimentos, como conhecimento de anotação humana, conhecimento de mundo, bom senso diverso, etc.

Aqui tomamos a tarefa de tratar o seguro automóvel como caso de referência. Esta tarefa é do tipo processo, ou seja, existem etapas e processos para solicitação de um seguro. Primeiro, verifique as informações pessoais e documentais, incluindo carteira de identidade, carteira de motorista, carteira de motorista, etc.; em seguida, inicie a inspeção veicular e gere os resultados da inspeção veicular: se o resultado da inspeção veicular falhar, o motivo da falha na inspeção veicular será informado , e o processo termina, com o resultado sendo Você não pode solicitar seguro automóvel; se o resultado da inspeção do carro for aprovado, siga as etapas para preencher a apólice, incluindo tipo de seguro automóvel, informações do segurado, etc., e depois pague o prêmio do seguro e obter o recibo do seguro.

Esta é uma tarefa de processo típica que precisa ser tratada por meio de diálogo baseado em tarefas. Uma característica distintiva do conhecimento do processo é que, na maioria dos casos, a ordem das tarefas é imutável. Por exemplo, você não pode executar primeiro a terceira etapa e depois a primeira, caso contrário, todo o processo ficará incorreto e não poderá ser executado. A segunda característica do conhecimento do processo é que se você observar cada etapa do conhecimento do processo, verá que ele contém muitos outros conhecimentos. Por exemplo, o primeiro passo é verificar informações pessoais e documentais, como nomes. Para os chineses, são basicamente caracteres chineses, e o número de caracteres está entre 2 e 10 caracteres. Eles pertencem ao conhecimento mundial ou ao bom senso básico, bem como números de identificação.Os cartões de identificação do continente têm todos 18 dígitos, etc., e são todas categorias no conhecimento mundial. Além disso, para treinar um diálogo utilizável baseado em tarefas, é necessária uma certa quantidade de dados anotados, e esses dados anotados contêm conhecimento humano. Por exemplo, a rotulagem de intenções, categorias e emoções inscreve explicitamente o conhecimento humano nos dados, formando assim novo conhecimento. Resumindo, todo o diálogo gira em torno do conhecimento: sem conhecimento não há diálogo.

A introdução básica e a introdução foram feitas acima. Por um lado, para o diálogo inteligente, o modelo de diálogo pré-treinado tornou-se o modelo básico, por outro lado, para todo o sistema de diálogo, está centrado no conhecimento. Portanto, a pesquisa e exploração de nossa (equipe de IA conversacional da Dharma Academy) no período passado centrou-se nesses dois pontos. A ideia principal é aliar conhecimento a modelos de diálogo pré-treinados. Especificamente, como mostra a figura acima, a tarefa é dividida em duas subtarefas: uma subtarefa é como injetamos conhecimento no modelo de diálogo pré-treinado para que o modelo tenha melhor capacidade de conhecimento; a outra subtarefa é em termos de aplicação. extrair uma grande quantidade de conhecimento aprendido no modelo de diálogo pré-treinado e combiná-lo e usá-lo melhor com tarefas posteriores. Centrando-nos nestes dois aspectos, este artigo centrar-se-á na partilha de alguns trabalhos exploratórios.

--

03 Pré-treinamento semissupervisionado: uma nova forma de injeção de conhecimento

1.  Conhecimento de rótulos

A primeira parte trata principalmente da infusão de conhecimento. Como injetar conhecimento no modelo, este artigo propõe um novo método, método de pré-treinamento semissupervisionado.

Primeiro revise o conhecimento. Existe um tipo de conhecimento muito importante: rotular o conhecimento. Sem conhecimento de anotação, é difícil executar bem as tarefas de PNL. O conhecimento rotulado manualmente contém uma grande quantidade de conhecimento relacionado à tarefa. Classificação esquemática, correspondência de intenções, reconhecimento de entidades, estratégias de diálogo, emoções, etc. Esses dados rotulados expressam explicitamente o conhecimento humano nos dados. O conhecimento anotado manualmente possui as seguintes características:

Em primeiro lugar, é crucial melhorar o desempenho de tarefas específicas . Embora a anotação de pequenas quantidades de dados, como Few-Shot, seja muito popular agora, este tipo de modelo que não requer dados anotados ou uma pequena quantidade de dados anotados ainda não foi implementado. atendeu aos requisitos para o lançamento do negócio.Portanto, a anotação de dados é muito útil para melhorar as tarefas;

Em segundo lugar, as tarefas estão relacionadas e os dados estão dispersos . Ou seja, os dados marcados na tarefa A não podem ser utilizados na tarefa B e precisam ser renomeados;

Terceiro, o montante total é pequeno . Comparados com dados não supervisionados, que geralmente possuem dezenas ou centenas de milhões de itens, os dados rotulados podem ter apenas centenas ou milhares de itens.

Como reunir esses dados anotados dispersos e injetar o conhecimento neles contido no modelo de diálogo pré-treinado para melhorar as capacidades do modelo? Este artigo estuda e explora esta questão. Se tal operação puder ser alcançada, a transferência de conhecimento poderá ser alcançada, e o conhecimento dos dados anotados na tarefa A poderá ser usado na tarefa B, melhorando assim o efeito da tarefa B. Os benefícios são os seguintes: primeiro, resolve o problema da partida a frio; segundo, são necessários menos dados anotados para obter a mesma precisão.

Primeiro, vamos revisar o desenvolvimento de modelos pré-treinados. Modelos pré-treinados foram utilizados pela primeira vez no campo da imagem e foram baseados em dados supervisionados. Quando Bert e outros modelos de pré-treinamento foram propostos, o pré-treinamento começou a partir de uma grande quantidade de dados não supervisionados, ou seja, através da aprendizagem auto-supervisionada. Havia dois métodos de modelos de pré-treinamento: um era a aprendizagem supervisionada em dados supervisionados; o outro era a aprendizagem auto-supervisionada em dados não supervisionados. As tarefas que enfrentamos hoje são uma grande quantidade de dados não supervisionados e uma pequena quantidade de dados supervisionados. Propomos aprendizagem semissupervisionada, que combina dados supervisionados e dados não supervisionados de maneira semissupervisionada. Conforme mostrado na figura acima, propomos Um modelo SPACE (Semi-supervisioned Pre-treined Conversation ModEl) foi desenvolvido.

O conceito de semissupervisão foi desenvolvido há muitos anos. O método semissupervisionado aqui proposto é diferente do método semissupervisionado anterior. A principal diferença é: no passado, semissupervisionado combinava semissupervisionado e supervisionado para reduzir Custo de rotulagem; agora, combinamos principalmente semi-supervisionado e auto-supervisionado para injetar conhecimento no modelo pré-treinado.

2.  Desenvolvimento de modelo de diálogo pré-treinado

Com base no conceito e na estrutura do modelo semissupervisionado que propomos, vamos dar uma olhada no progresso dos modelos de diálogo pré-treinados. Como integrar ideias semissupervisionadas em modelos de diálogo pré-treinados e conduzir experimentos e implementação em um cenário de negócios específico. Como pode ser visto na figura acima, muitas instituições criaram muitos modelos em torno da compreensão e da geração de diálogo, mas muito pouco foi feito em estratégias de diálogo e basicamente não há investigação relevante. Contudo, a estratégia de diálogo é muito crítica e importante.

Então, o que é uma estratégia de conversação? Entre a compreensão do diálogo e a geração de diálogo, existem estratégias de diálogo. A estratégia de diálogo consiste em decidir como responder à próxima frase com base no resultado da compreensão do diálogo e no estatuto histórico.

Por exemplo, duas pessoas A e B, durante a conversa, A fica dizendo, B pode continuar respondendo, hum, ok, certo. Esta é uma estratégia de diálogo. A estratégia de B significa que estou ouvindo e entendo. Há também uma estratégia: durante o processo de escuta, B não entende algumas partes e precisa fazer perguntas sobre determinado ponto. Também é uma estratégia ter dúvidas sobre algumas partes do que A disse e pedir esclarecimentos. Portanto, a estratégia de diálogo é um passo crítico para garantir que o diálogo possa prosseguir sem problemas.

A definição de estratégia de diálogo nos círculos acadêmicos é DA (Lei de Diálogo). Conforme mostrado na figura acima, a definição e o nome de DA são diferentes em momentos diferentes. Embora toda a estratégia de diálogo tenha sido desenvolvida há muitos anos, ela apresenta deficiências como como complexidade e inconsistência. Como resultado, é mais difícil aplicá-lo hoje.

3.  Preparação

Injetar estratégias de diálogo como conhecimento no modelo de diálogo pré-treinado requer algum trabalho de preparação nos níveis de dados e conhecimento. Conforme mostrado na figura acima, os conjuntos de dados de código aberto em inglês são sintetizados para formar um sistema DA de diálogo baseado em tarefas em inglês - UniDA, com um total de 5 categorias, 20 tags, 1 milhão de dados rotulados e 35 milhões de dados não rotulados, como mostrado abaixo Mostrado:

Depois de resolver o conhecimento acima, como definir a tarefa de pré-treinamento? Conforme mostrado na figura acima, é utilizada a estratégia de diálogo de modelagem explícita, ou seja, dado o histórico do diálogo, prever a próxima rodada de DA do lado do sistema, ou seja, torná-la uma tarefa de classificação e prever a próxima rodada de rótulos DA .

4.  Projeto de esquema semissupervisionado

Com dados, conhecimento e métodos de modelagem explícitos, o aprendizado semissupervisionado pode ser realizado. Conforme mostrado na figura acima, as soluções de aprendizagem semissupervisionadas incluem principalmente os três métodos acima: método discriminativo, método generativo, método de aprendizagem comparativa, etc.

Como o método discriminante e o método generativo são relativamente convencionais, os dois métodos acima serão explorados primeiro. Os resultados mostram que os dois métodos acima não são eficazes. Conforme mostrado na figura acima, para o método discriminante, uma nova função de perda LDA pode ser adicionada para dados rotulados, mas para dados não rotulados, a função de perda não pode ser adicionada. O mesmo se aplica aos métodos generativos. Ou seja, os métodos Self-Predict e VAE são bons para modelar dados rotulados, mas o efeito de modelagem para dados não padronizados não é bom, porque o método baseado na autoprevisão atinge restrições fracas por meio do compartilhamento de parâmetros do modelo, e o método baseado em VAE O método realiza retropropagação de gradiente por meio de parametrização pesada de Trick, mas as variáveis ​​ocultas são instáveis.

Com base nos problemas acima, esperamos explorar a aprendizagem semissupervisionada por meio da aprendizagem contrastiva. Para dados rotulados, a função de perda LDA pode ser facilmente adicionada. Para dados não padronizados, aqui está a introdução da função de perda de consistência. Conforme mostrado na figura acima, passamos a estrutura do modelo no lado direito da figura duas vezes para a mesma amostra. Cada passagem tem Dropout para processamento aleatório. Portanto, os dois códigos de amostra são inconsistentes, mas a diferença não é muito grande e a distância deve ser muito próxima. A ideia geral é a seguinte:

Com base em uma pequena quantidade de dados rotulados e uma grande quantidade de dados não padronizados, uma distribuição de probabilidade suportada é aprendida através dos dados rotulados. Para os dados não rotulados, dois aprendizados são realizados. Cada vez que o modelo é aprovado, um vetor é gerado. O dois vetores gerados são A distância deve ser muito próxima. Através deste método de aprendizagem semissupervisionada de aprendizagem contrastiva, o problema de combinar dados rotulados e dados não rotulados na aprendizagem semissupervisionada é bem resolvido.

O modelo teve um desempenho muito bom, alcançando melhorias de 5,3% e 5,5% no MultiWOZ2.0 e MultiWOZ2.1. As melhorias do modelo anterior só conseguiam melhorias de 1% ou 2%, enquanto o SPACE traz melhorias de mais de 5%.

Desmontando-o e olhando mais de perto, tomando o MultiWOZ2.0 como exemplo, a melhoria do modelo reflete-se principalmente em aspectos como Sucesso e BLEU, porque a estratégia de diálogo é crucial para a taxa de conclusão do diálogo de sucesso e geração de resposta ao diálogo BLEU , o que mostra que por meio da semi-supervisão o modelo aprende muito bem esse tipo de conhecimento.

Além de testar a quantidade total de dados, também testou uma pequena quantidade de dados. Conforme mostrado na figura acima, experimentos comparativos foram realizados em quantidades de dados de 5%, 10%, 20%, 50%, etc. Descobriu-se que o modelo SPACE tem um bom desempenho em diferentes quantidades de dados. Também trouxe melhorias significativas.

O que foi dito acima explica principalmente o método de injeção de conhecimento que propomos, o treinamento semissupervisionado do modelo SPACE, que melhora significativamente o efeito do modelo de pré-treinamento no pré-treinamento.

--

04 Proton: Exploração da utilização do conhecimento em modelos pré-treinados

A seguir, é explicada a utilização do conhecimento no modelo pré-treinado. Como o modelo de pré-treinamento é treinado com dados massivos e contém muito conhecimento, se o conhecimento puder ser utilizado, sem dúvida proporcionará grande ajuda e melhoria às tarefas de PNL. Propomos um método - Ajuste de sondagem.

1.  Tarefas TableQA

Para verificar o papel do conhecimento, são necessárias tarefas intensivas em conhecimento . Como mostrado na figura acima, a tarefa TableQA é muito adequada. A principal tarefa do TableQA é converter a linguagem de texto em SQL.

A figura acima mostra o processo de desenvolvimento de Text-to-SQL. Inicialmente, a previsão SQL foi dividida em um problema de classificação, e a precisão estava em torno de 40%; mais tarde, o Seq2Seq foi usado para gerar um modelo, e a precisão foi aumentada para mais de 50%; além disso, um pré-treinamento em grande escala modelo foi introduzido e a precisão foi aumentada para 70%. Portanto, percebe-se que o modelo de diálogo pré-treinado melhora significativamente todo o sistema de diálogo. Mas ainda existem alguns problemas.

Tomando o conjunto de dados Spider como exemplo, ao marcar o conjunto de dados Spider, eles viram o conjunto de dados. Como resultado, quando escreveram o conjunto de dados, as palavras que usaram foram todas palavras que existiam no texto original. Faltam mudanças sinônimas e conhecimento de mundo etc. Por exemplo, no cenário de compra de casa, existe um modelo de sofá denominado em L, que é um termo oficial, porém, para usuários ou consumidores, eles não sabem o que é um sofá em L. Eles só conhecem "chaise". . A "chaise Chair" é o nome comum para o sofá em forma de L. Portanto, alguém transformou os sinônimos no conjunto de dados Spider e construiu um novo conjunto de dados Spider-Syn, mas o desempenho do modelo original no novo conjunto de dados caiu significativamente.

Além do problema dos sinônimos, como mencionado no lado direito da imagem acima, “...nos países africanos que são repúblicas?” Ou seja, o que são as repúblicas na África? Repúblicas, a palavra significa “república” e, para esse significado, o modelo não pode aprender com os dados e requer conhecimento mundial.

Geralmente, existem duas maneiras de usar modelos pré-treinados: ajuste fino e ajuste rápido. Para o ajuste fino, o modelo pré-treinado é usado diretamente como uma representação das tarefas downstream. A maioria das tarefas pode aproveitar os recursos do modelo pré-treinado, mas há um grande GAP entre o modelo pré-treinado e o modelo downstream . Simplificando, o modelo pré-treinado tem muito conhecimento, mas as tarefas posteriores só podem obter uma saída muito pequena de resultados e não podem obter plena expressão do conhecimento. Modelos de Prompt Tuning, que melhoram o desempenho alterando a forma de predição, surgiram recentemente em tarefas de classificação, especialmente em situações de amostras pequenas. Mas e as tarefas mais complexas? Parsin, por exemplo, não funciona muito bem. Em resumo, uma grande quantidade de conhecimento foi aprendida através do treinamento de um grande modelo de pré-treinamento, mas não pode ser bem utilizado em tarefas posteriores.

2.  Método de ajuste de sondagem

Também há muitas pesquisas em torno do uso do conhecimento de grandes modelos pré-treinados, o que geralmente é chamado de sondagem. A sondagem pode explorar estruturas sintáticas, estruturas de dependência, etc. de modelos pré-treinados, e também pode explorar conhecimentos como triplos de modelos pré-treinados. No entanto, há actualmente relativamente pouco trabalho sobre como representar explicitamente o conhecimento no modelo pré-treinado e combiná-lo com tarefas a jusante.Propomos um novo método Finetune a este respeito - o método Probing Tuning.

Conforme mostrado na figura acima, o método Prompt Tuning é baseado no treinamento de modelo, que essencialmente ajusta o modelo adicionando uma pequena quantidade de dados por meio da expressão de memória. No método Probing Tuning que propomos, o problema original é representado por um vetor denso através do modelo pré-treinado, e através do Probing, a expressão estrutural do conhecimento é obtida e inserida na representação vetorial densa, o que melhora as tarefas posteriores.

Conforme mostrado na figura acima, propusemos uma estrutura - Proton Framework . Em primeiro lugar, os dados de entrada no modelo de pré-treinamento contêm as questões originais e as sentenças correspondentes à tabela; por outro lado, contém também o conhecimento de regras definidas por humanos, que não possui conhecimento generalizável; e, através do Proton, o conhecimento é aprendido Expressão e generalização.

O princípio de funcionamento específico do Probing é explicado no exemplo acima .

A pergunta é: "De onde é o professor mais novo?", e os dados da tabela são "SELECT hometown FROM teacher ORDER BY age ASC LIMIT 1". A frase original extrai as informações do substantivo nos dados da tabela, "professor, professor.idade , teacher.hometown ", combinado em um todo: "[CLS]De onde é o professor mais novo? [SEP] professor, teacher.age, teacher.hometown". Em seguida, MASK aleatoriamente uma palavra, como "onde" e, em seguida, calcule a "distância entre "professor.cidade natal" e "professor.cidade natal" do vetor da frase original. Se a distância for maior, significa que "onde" e "professor.cidade natal" são mais semelhantes, ou seja, conhecimento relevante foi aprendido. Conforme mostrado na matriz de correlação na figura acima, "A correlação entre" idade do professor "e" mais jovem "é 0,83, o que é muito alto, indicando que os dois têm uma correlação muito forte. Em seguida, o gráfico em O próton e o peso das arestas podem ser construídos.

O texto acima é todo o processo de sondagem, que combina conhecimento construído manualmente e conhecimento aprendido pelo Proton no modelo de pré-treinamento para melhorar o desempenho das tarefas posteriores.

O método baseado em Probing Tuning melhorou 6,9% em comparação com SOTA no conjunto de dados Spider-DK e melhorou 16% em comparação com SOTA no conjunto de dados Spider-SYN. A melhoria do efeito é muito óbvia.

Em suma, ao detectar o conhecimento aprendido pelo modelo de pré-formação e aplicá-lo explicitamente ao modelo a jusante de uma forma estruturada, podemos trazer melhorias significativas para tarefas específicas a jusante.

3.  Perspectivas de trabalho de acompanhamento

A tecnologia de sondagem pode nos levar ao próximo passo de exploração, como obter explicitamente o conhecimento no modelo pré-treinado. Neste campo, AlphaZero fez explorações relacionadas. Conforme mostrado no lado esquerdo da imagem acima, os lados esquerdo e direito representam, respectivamente, o espaço vetorial aprendido automaticamente pelo humano e pelo modelo. O modelo aprendeu alguns registros de xadrez que os humanos têm nunca conhecido, indicando que o modelo pode aprender coisas que os humanos não sabem.

Hoje falamos primeiro sobre a importância dos modelos de diálogo pré-treinados para todo o sistema de diálogo; em segundo lugar, a importância do conhecimento no sistema de diálogo. Com base nos dois pontos acima, esperamos combinar conhecimentos e modelos de diálogo pré-treinados, que se dividem especificamente em duas tarefas:

Primeiramente, como injetar conhecimento no modelo de diálogo pré-treinado, propomos um modelo de pré-treinamento semissupervisionado - SPACE.

Em segundo lugar, como extrair e utilizar explicitamente o conhecimento no modelo de diálogo pré-treinado, propomos um modelo Proton.

--

05

Sessão de perguntas e respostas 

Q1 : As tarefas de supervisão do modelo de pré-treinamento semissupervisionado precisam ser consistentes com as tarefas posteriores? Por exemplo, algumas tarefas de classificação de intenções em modelos pré-treinados?

A1: O pré-treinamento semissupervisionado que estamos fazendo agora ainda é um pré-treinamento para tarefas posteriores. Ou seja, aprendizagem semissupervisionada para tarefas posteriores. É claro que agora também estamos explorando o treinamento de tarefas posteriores de multitarefas e explorando se as multitarefas podem melhorar os efeitos das tarefas relacionadas.

Q2 : O Unified DA considera declarações sem sentido, etc.?

A2: Sim, há frases na classificação que não entendo/não entendo.

Q3 : Qual é a diferença entre Ato e Intenção?

A3: Intent é uma coisa concreta, relacionada a uma tarefa específica. Por exemplo, se você deseja arrecadar economias de escritório, neste cenário, você pode definir 5 Intents; no cenário de compra de passagens aéreas, você pode definir 10 Intents. Essencialmente, não há relação entre as intenções desses dois cenários. A lei transcende cenários específicos, como cenários de caixa de previdência e reserva de passagens aéreas.Atos comuns podem ser definidos, como esclarecimento explícito, esclarecimento implícito, etc., que nada têm a ver com cenários específicos. Ato e Intenção são representações da semântica.A intenção é uma representação em um nível concreto e Ato é uma representação em um nível abstrato.

Q4 : Os conjuntos de dados estão todos em inglês. Você considerará alguma exploração em chinês no futuro?

A4: Nossa equipe é uma equipe que presta igual atenção à pesquisa e aos negócios. Nosso chinês e inglês são feitos simultaneamente. O que estamos compartilhando principalmente hoje é o modelo inglês. Já concluímos o modelo chinês e o temos no Alibaba Cloud Intelligence. Foi totalmente implementado em produtos de atendimento ao cliente e tornou-se a base do sistema de diálogo. Tomando como exemplo a classificação de intenções, a quantidade de anotação de dados de amostra de treinamento baseada no SPACE foi reduzida em cerca de 70%. Hoje estamos apenas compartilhando nossos primeiros e mais clássicos trabalhos, e no futuro compartilharemos trabalhos relacionados à China.

Q5 : Como o modelo ponta a ponta é combinado com NLG no SPACE?

A5: O modelo ponta a ponta é dividido em três partes: compreensão, estratégia e geração. Para a tarefa de geração, é uma distribuição de probabilidade baseada na compreensão e na estratégia, ou seja, se a previsão do Ato anterior for precisa, a tarefa de geração subsequente será mais precisa.

Acho que você gosta

Origin blog.csdn.net/chaishen10000/article/details/132904203
Recomendado
Clasificación