1.7 profundidade Dropout- compreensão de aprendizagem de uma segunda lição "Melhorar DNN" -Stanford Professor Andrew Ng

Entenda Dropout

Dropout pode excluir aleatoriamente uma rede de células nervosas, por que ele poderia desempenhar um grande papel tão pela regularização dele?

Entendido intuitivamente: Não confie em qualquer um dos recursos, uma vez que a entrada da unidade a qualquer momento pode ser apagado, a unidade é propagado para baixo desta forma, aumenta a unidade de peso e quatro de entrada, por todos propagação de peso, Dropout gerado o efeito da norma peso de contração direito quadrado, e antes de falar eu 2 L2 regularização semelhante; concretizaçãoabandonopeso fruta comprime-o, e impedir a realização de alguns regularização exterior overfitting; eu 2 L2 pesos diferentes de atenuação diferente, que depende do tamanho da multiplicação função de activação.

Para resumir, Dropout funções como eu 2 L2 regularização, e eu 2 L2 diferença regularização é aplicada de maneiras diferentes trarão um pouco de pequena mudança, ainda mais aplicáveis a diferentes faixas de entrada.

Aqui Insert Picture Descrição

A segunda compreensão intuitiva, partimos de um único neurônio como unidade de trabalho é alguma saída de entrada e gerando significativa. Por Dropout , insira a unidade está praticamente eliminado, e será eliminado, por vezes, estas duas unidades, por vezes, exclui outras unidades, ou seja, eu uso anel roxo-se esta unidade, não pode confiar em qualquer recurso, porque as características são susceptíveis de ser Limpar aleatória, ou a unidade de entrada pode também ser removido de forma aleatória. Eu não quero colocar todas as apostas são colocadas em um nó, não quer dar qualquer uma entrada mais peso demais, porque ele pode ser excluído, esta unidade vai se espalhar ativamente desta maneira, e quatro unidades entrada de um pouco mais de peso, através da divulgação de todos os pesos, Dropout irá produzir pesos pesados quadrado efeito contração norma, e já dissemos eu 2 L2 regularização Da mesma forma, formas de realizaçãode evasãoresultado é que irá comprimir os pesos, e uma camada externa sobre a prevenção completar alguns regularização.

Fatos provaram que, Dropout é oficialmente como uma regularização de formas alternativas, eu 2 L2 pesos diferentes de atenuação diferente, que depende do tamanho da função de activação de multiplicação.

Para resumir, Dropout funções como eu 2 L2 regularização, e eu 2 L2 regularização é diferente, é aplicado de diferentes maneiras,Dropoutserá diferente, ainda mais apropriado para diferentes faixas de entrada.

Aqui Insert Picture Descrição

Forma de realização dropout Outro detalhe é que ele tem três recurso de entrada é uma rede em que o parâmetro a ser seleccionado é Keep-Prob , que representa a probabilidade de cada camada da unidade de retenção. De modo que diferentes camadas de keep-prov também podem variar. Uma primeira camada de matriz W [ 1 ] w ^ {[1]} é de 7 × 3, a segunda matriz de pesos W [ 2 ] w ^ {[2]} é de 7 × 7, uma terceira matriz de pesos W [ 3 ] w ^ {[3]} é de 3 × 7, e assim por diante, W [ 2 ] w ^ {[2]} representa a maior matriz de peso, porque W [ 2 ] w ^ {[2]} tem o maior conjunto de parâmetros, isto é, 7 × 7, a fim de evitar o excesso de montagem da matriz para esta camada, creio que esta é a segunda camada, os seuskeep-provvalores devem ser relativamente baixo, que assumido como sendo 0,5. Para as outras camadas, o grau de sobre-montagem pode não ser tão grave, elesmanter-provvalor pode ser maior, talvez 0,7, 0,7 é aqui. Se em um determinado nível, não precisa se preocupar com encaixe-a, em seguida,mantê-provpode ser 1, para expressar clara, eu uso linha roxa eles circulam a caneta, cadakeep-provvalor pode ser diferente.

Aqui Insert Picture Descrição

Nota keep-prov valor é 1, o que significa que todas as células mantidas, e esta camada não está em uso Dropout , pode ser tido para o encaixe, e que contém um grande número de parâmetros, que pode manter-prov conjunto para um valor relativamente pequeno a fim de aplicar mais poderoso Dropout , um pouco como tratamento eu 2 L2 parâmetro de regularização regularização l \ lambda , tentamos realizar algumas das camadas mais regularização, tecnicamente, também podemos usar a camada de entradaDropout, temos a oportunidade de remover um ou mais recursos de entrada, embora na realidade nós não costumamos fazer isso,man- provvalor de 1, é um valor de entrada muito comum, um valor maior pode ser utilizado, talvez 0,9. Mas a eliminação de metade do recurso de entrada é improvável, se seguirmos esta orientação,o Keep-Probserá próximo de 1, mesmo se você usar a camada de entradaDropout.

Em resumo, se você está preocupado que algumas camadas são mais propensas a overfitting que as outras camadas, algumas camadas podem manter-prov valor é definido menor do que as outras camadas, é uma desvantagem para o uso de validação cruzada, que você deseja procurar mais super-parâmetros, outra solução é usado em algumas das camadas dropout , e algumas camadas sem abandono , aplicação abandono camada contém apenas um parâmetro super é o Keep-Prob .

Compartilhar duas dicas antes do final do processo de implementação, implementação Dropout , tem um monte de sucesso pela primeira vez no campo de visão de computador. Digite o valor da visão de computador é muito grande, muita informação pixels, de modo que não há dados suficientes, o abandono aplicação foi mais frequente em visão por computador, os pesquisadores de visão computacional e alguns muito como usá-lo, parece ter se tornado a opção padrão, mas Tenha em mente que, abandono é um método de regularização, que ajuda a evitar o excesso de montagem, de modo a não ser sobre-montagem algoritmo, caso contrário eu não vou usar abandono , por isso seu uso é menor do que em outras áreas, principalmente no visão por computador, porque geralmente não têm dados suficientes, por isso tem havido excesso de encaixe, que é alguns pesquisadores de visão computacional tão apaixonado por abandono de função razão. Intuitivamente, eu não acho que generalize a outras disciplinas.

Aqui Insert Picture Descrição

abandono uma grande desvantagem é a função de custo J J não é mais claramente definida, cada iteração irá remover algum nó aleatório, duplo-seleção se o desempenho gradiente descendente, de fato, difícil para rever o. função de custo bem definida J J após cada iteração irá diminuir, porque optimizar a função de custo J J realmente não bem definida ou difíceis de calcular na medida em que perdemos a ferramenta de depuração para desenhar um quadro como esse. I geralmente perto oabandonode função, okeep-provvalor é definido como 1, execute o código de garantir que J monotonicamente decrescente função. Em seguida, abraabandonofunção, esperançaabandonoprocesso, o código não foi introduzidobug. Eu acho que você também pode tentar outros métodos, embora não temos estatísticas sobre o desempenho desses métodos, mas você pode colocá-los com oabandonousado com o método.

curso PPT

Aqui Insert Picture Descrição
Aqui Insert Picture Descrição

Publicado 186 artigos originais · ganhou elogios 7 · vê 10000 +

Acho que você gosta

Origin blog.csdn.net/weixin_36815313/article/details/105392483
Recomendado
Clasificación