aplicação Bert na área de CV

três setores fundamentais da AI (CV / discurso / NLP), nos últimos anos têm feito grande progresso e desenvolvimento. Mas o ditado como também Xiao, também perdeu, profundidade de aprendizagem tem sido os problemas de generalização e robustez criticado em capacidade, estrada geral AI num futuro próximo.

No entanto, graças ao modelo pré-formação recente de sucesso, parece que problema cross-modal (VQA, plug-falar, etc.) também se tornaram mais de um. solução multi-modal com base na pré-formação pode ser dividido em dois ramos, um para vídeo-Linguistic BERT (dados de vídeo para o BERT), o outro é o Visual-Linguistic BERT (os dados de imagem para o BERT imagem). A principal dificuldade é como a informação não-texto no âmbito da BERT. Este artigo cobre apenas BERT vídeo-linguística.

O vídeo pode ser entendida como uma foto de grupo para jogar, cada um dos quais é definido como uma imagem de quadro (frame) . Tipicamente requerido por os primeiros dados de processamento de vídeo por frame x (fps) frequências de vídeo a ser extraída, e, em seguida, o n quadro consecutivo composto por um fragmento (grampo) , de modo a que o vídeo não vai ser cortado em muitos fragmentos sobrepostos. Para cada segmento de um clipe (incluindo m quadro) utilizando o modelo pré-treinado arte CV (por exemplo ResNet etc.) para extrair um vector de característica (características visuais) , o final de vídeo é representado como uma sequcia de vectores de características .

 

Extraído do recurso de vídeo é um vetor de valor real NATURAL vetorial contínuo (número real pertence ao espaço), e textos discretos são muito diferentes. Atualmente, o vector recurso de vídeo é injetado principalmente de duas maneiras Bert o seguinte:

(1) forma Pipeline: valores reais vectores discretas, e adicionou-se o alinhamento do texto símbolo modelo BERT;

(2) uma extremidade à outra: ajuste fino da estrutura BERT modelo, directamente envolvido no cálculo utilizando o vetor de valor real.

Homem de poucas palavras, disse, pequeno noite irá introduzir os dois métodos abaixo dois papéis respectivamente. Leia a necessidade subsequente de BERT um entendimento e conhecimento relativamente profundo. Não precisa ser o local aqui , um simples revisão de BERT revisão. Final do texto, bem como ovos, não perca ~

"VideoBERT: Um Modelo Conjunto para vídeo e Representação Language Learning"

Esta é uma combinação de BERT vídeo irá aprender representação clássico modal cruzada. O trabalho do vector recurso de vídeo extraído pelo método de aglomerado discreto, por sua vez aumenta o token sinal visual na base do texto, a informação visual e textual com a aprendizagem.

método 1

processamento de dados de texto 1.1 de vídeo (processamento de vídeo e linguagem)

processamento de vídeo para a primeira selecção de 20 quadros (20 fps) de vídeo a partir da segunda entrada, cada um composto por um segmento 30. Pré-treinado com cada ConvNet grampo para a extracção de um vector de característica (Dimensão 1024). No entanto, uma vez que o vetor de características pertence ao espaço R ^ 1024, incontáveis. E um símbolo correspondente ao texto, a tarefa original continua BERT em MLM, os autores fazem uso de hierárquico k-means clustering sobre os vetores de características extraídos de tudo, para dar um total de 20.736 centro de cluster. O agrupamento centro como um símbolo visual, cada vector de características visuais pertence à classe pelo seu centro caracterizado.

Para o processamento de texto, use a ferramenta de reconhecimento de voz ready-made (Reconhecimento Automático de Fala) para vídeo extrato de texto, usando o modelo de linguagem LSTM baseada-em sua pontuação. O processamento subsequente continua BERT cru, cortada com o tamanho do vocabulário WordPieces palavra é de 30.000.

1,2 formato de entrada (formato de entrada)

Após o processamento anterior, vídeo e informação visual na língua tornaram-se símbolo discreto, formato de entrada VideoBERT continua design original BERT, só aumentou [>] Esse token especial e o token usado para distinguir símbolo visual texto.

              

1.3 a partir de tarefas de supervisão (pretrain)

BERT das duas tarefas originais de supervisão:

(. 1) Cloz E (Cloze) / o MLM (máscara Modelo Language) : previsão do texto máscara simbólica;

(2) NSP (a próxima frase Prediction) : prever se os dois períodos de supor contínua.

A primeira tarefa pode ser naturalmente estendido para o token visual. Como o texto token como mascarar início símbolo visual, não usar a máscara de texto sinal visual e simbólico prever símbolo visual da máscara, é um problema multi-classificação, uso softmax como uma função perda.

A segunda tarefa torna-se VideoBERT PNS de prever se o texto e a sequência de sequência visual é consistente, isto é, se os dois extraído do mesmo vídeo. Semelhante BERT original, podemos extrair os dados de vídeo de outra seqüência visual como casos negativos, seqüência visual a partir dos dados de vídeo como casos positivos. É um problema de classificação binária. 

1,4 tarefa jusante

VideoBERT por estes tarefa dois auto-supervisionado de aprendizagem, de facto, uma joint representação visual-liinguistic (distribuição) p (x, y), onde x representa a seqüência visual, y representa a seqüência de texto. A distribuição conjunta pode ser usado em três tarefas seguintes:

(1) text-to-video  : de acordo com a previsão de texto de vídeo, auto ilustração de acordo com o texto. 

       

(2) vídeo para texto :  O vídeo texto, geração automática de resumos de vídeo.

(3) forma unimodal (usando o modo único): a borda usando texto ou de distribuição de vídeo, de acordo com a previsão acima e abaixo. O texto é que estamos muito familiarizados com o modelo de linguagem, o caso do vídeo, podemos prever o que poderia acontecer mais tarde, de acordo com o conteúdo do vídeo anterior.

              

experimento 2

O artigo real é projetado para verificar a validade dos dois tarefa jusante de aprender a intermodal representação conjunta.

2.1 Discussão Imagem      

O vídeo e um modelo fixo "agora deixe-me mostrar-lhe como  [mask] a [Máscara]", previu a máscara de palavras-chave (um verbo e um nome) . Os seguintes figura mostra a qualitativos três exemplos, cada um exemplo mostra uma classe centros de vídeo de dois segmentos, e os verbos e substantivos topo previsto.

                    

comparação quantitativa da tabela de dados da tarefa sobre o efeito de diferentes métodos. S3D é um modelo clássico de supervisão , além de modelos S3D não foram utilizados para treinar o sinal de supervisão ( ZERO-SHOT Classificação, uso direto do modelo de pré-formados ). BERT (idioma antes) representa o uso direto de BERT original, VideoBERT (idioma antes) refere-se a um aumento de dados de vídeo no BERT original, com base dos dados de vídeo e de texto extraídos têm dados de texto para aprender, VideoBERT (modal transversal) é um modelo completo e combinam aprendendo. Os resultados da experiência comparativa pode ser visto, a precisão da topo-5, três tipos de efeitos e melhorar conjunto BERT, a validade e a eficácia de dados multimodais, o VideoBERT-tiro de zero final (modal cruzada) pode ser obtida, e aprendizado supervisionado efeito semelhante S3D. A razão para os resultados de todos os tipos de top-1 é um pouco menos de BERT BERT pedaço palavra corte de classificação baseado em palavras é mais propício para-vocablary aberta, incidindo na precisão de semântica em vez de correspondência exata.   

caption 2,2 vídeo

O autor usa a tarefa de verificar a validade VideoBERT como extração de características. Usando o mesmo transformador de codificador-descodificador de vídeo gerador modelo resumo, excepto que a entrada do recurso modelo.

(1) usando a característica S3D extraída (linha de base)

(2) usando a característica VideoBERT extraída

(3) recurso VideoBERT splicing recurso S3D (mais forte da marca)

       

             

Podemos ver o exemplo de qualitativa usando o recurso VideoBERT conteúdo legenda de vídeo gerado mais detalhe, mais vivas e específico. A partir dos indicadores quantitativos, VideoBERT + S3D obteve os melhores resultados, VideoBERT aprender a característica tem melhorado muito legenda vídeo tarefa jusante.   

"Aprendizagem Vídeo Representações Usando Contrastive bidirecional Transformer"

Leia trabalho anterior, pequenos parceiros pode ter uma dúvida, os vetores de características contínuas de valor real (características visuais) é limitado pelo agrupamento centros de aulas regulares, você vai perder um monte de detalhes contidos nas informações de vídeo -lo (⊙⊙)? Assim, este artigo não seria mais aglomerado uso contínuo real-valorizadas tipo discreto de recursos visuais, mas o uso direto de recursos de valor real vetor visual, por ajuste fino do algoritmo modelo, multi-modalidade do BERT.

método 1

              

Primeiro, panorama do modelo, acima da linha quebrada é palco pretrain, abaixo da linha de tarefa jusante pontilhada de ajuste fino. caixas cinzentas indicam texto simples modelo de dados e pré-formação BERT correção. caixas a branco representam linha preta puro pré-treino modelo de dados de vídeo TCC, a porção de linha vermelha dados multimodais, utilizando um pré-formados para combinação transformador modal cruzada dos dois frente. Abaixo, você um por um com um pequeno noite revelou ~ ~ ~ cada parte

modelo BERT 1,1 texto simples

Desde tarefas de supervisão ou BERT matéria de MLM , texto máscara aleatória token não prevêem mascarar o uso do texto circundante.

             

Em que YT é o sinal correcto é uma máscara, yt yt fora a máscara é removida representa a sequência de texto. Esta é realmente a função perda MLM é maximizar a probabilidade de previu corretamente yt yt é. Mas aqui a probabilidade yt previsão yt é definida como segue.

             

Que é obtida através do transformador recurso. Optimização objectivo é ser o yt sequência palavra mcara e verdadeira representação de incorporação semelhante yt (colinear) .

O referido BERT BERT original e essencialmente o mesmo, excepto que, em vez da forma da computação produto interno de uma softmax probabilidade. Este pequeno modelagem de mudanças e visual parte ecos de trás da estrutura do modelo é muito elegante.

1,2 modelo TCC visuais

Baseado em dados de supervisão tarefas de vídeo modelo MLM também é perfeita, mas porque o recurso visual é um vetores valores reais contínuos, os autores utilizaram a perda de NCE (Noise contrastante Estimativa) :

             

             

A definição de BERT probabilidade acima de comparação, ea definição de NCE não é super gosta! ????    

 É máscara sequência visual através saída BERT visual. Incontável porque elemento visual, não como a porção de texto a ser exaustiva de todas as formas de realização da negativa, a concretização de amostra negativa por meio de amostras negativas. O objectivo é optimizar a sequência visuais xt semelhante característica et mascarar a verdadeira representação de xt e visual.

     

1.3 Modelo de cross-modalidade TCC

Introduzido em frente de um único modo no módulo, tanto para vídeo (video extraído das características visuais referido como y = y1: T) e texto (texto utilizando ASR extraído do sinal de vídeo, referido como x = X1: T) de dados com o estudo relação entre si correspondente indica interacção multimodal para cross-modais amigos módulos TCC ~ ~

Embora a características visuais y e x texto do mesmo período do vídeo, mas até mesmo vídeos de instrução, em que cada quadro ( Nível Frame) não corresponde exatamente, por isso não podemos modelo obrigar pode prever previsão yt yt por xt ou por xt. Somente você precisa perguntar-lhes (um modelo falando que pode prever x y) relacionamento correspondente pode existir no Nível Sequence . Use a mesma perda NCE:

             

             

X e Y representam, cada um calculado por visuais modelo TCC e BERT.

             

             

Para o transformador modal cruzada calculado representação interacção , a informação mútua entre x e y com um raso MLP . objectivos de optimização similares e duas frontais, transversais entre os exemplos positivos (x, y) a informação de grande exemplo, negativa (x, y ') da pequena informação mútua. 

1,4 modelo global

modelo global é uma parte integrante do top três. Embora todas as três partes da entrada um pouco diferente, mas o algoritmo é simétrica muito consistente, com muito perfeito.

             

experimento 2

reconhecimento 2.1 ação

Como a tarefa a jusante para verificar a validade de um representaions reconhecimento ação visual. À esquerda, seguindo contrastes tabela de estratégias pretrain (Aleatório e Aprender e 3DRotNet) e uma linha de base de inicialização aleatório, o efeito do uso de ambos os métodos e recurso de correção de ajustes finos nos dois conjuntos de dados (UCF101 e HMDB51) a. Os resultados experimentais mostram a eficácia do modelo CBT visuais neste trabalho. À direita está uma mesa e uma variedade de modelos de estado-da-arte de supervisão comparação, modelo CBT também tem um upgrade muito significativo diretamente do que esses modelos.

       

antecipação 2.2 ação 

O artigo usa três diferentes conjuntos de dados do conjunto de dados pequeno-almoço, o conjunto de dados 50Salads eo ActivityNet 200 dataset. Não entendo a ação tarefas antecipação pode ser simplesmente consideradas com base em tarefas multi-classificação como vídeo. Neste experimento, os autores não só provou método CBT é melhor do que outros métodos existentes, mas também provar CBT em vídeo longo tem uma capacidade boa representação.

              

tabela mostra esquerda a comparação de vários outros métodos e, TCC TCC três tarefas na mesma superior a outros métodos (para colocar três dados experimentais, que é muito convincente), em que a auto-super = Y representa o o método de utilização de maneira pretrain-ajustes finos, auto-super = N indica que o modo é o de formação de ponta-a-ponta.

Tabela do lado direito é uma comparação do comprimento das diferentes efeitos de vídeo, modelos diferentes. CBT dados sobre três máquina significativamente melhor do que os outros dois são de linha de base consistente (AvgPool e LSTM), e aumenta à medida que o comprimento do vídeo, o efeito TCC foi ficando melhor. modelo geral será no longo, longo texto ou vídeo fracasso, tal como uma mesa, dois métodos de linha de base, mas pode ser de ilimitado comprimento. CBT, mas a partir de um vídeo já aprendeu uma melhor representação do modelo de tal forma que o efeito se torna bom. (Sri Lanka um país !! ????)

2.3 outras tarefas de vídeo

       

O artigo também compara a legendagem de vídeo e segmentação destas duas tarefas ação, CBT do que VideoBERT mencionado anteriormente também melhorou em legendas de vídeo, isso pode aumentar a etapa de agrupamento é otimizar a perda de questões de informação agora.

 

[Este é] ovo ????

Não. Bastidores resposta [público] videoBERT get o original em papel (escola à noite para suas próprias notas durante a leitura oh)

notas de referência ler jornais, mais simples ~~

 

Publicado 33 artigos originais · ganhou elogios 0 · Vistas 3271

Acho que você gosta

Origin blog.csdn.net/xixiaoyaoww/article/details/104623997
Recomendado
Clasificación