Outro método de regularização (Outros métodos de regularização)

Além de $L2$ regularização e inativação aleatória (Dropoutregularização), existem várias maneiras de reduzir a rede neural overfitting:

Aqui Insert Picture Descrição

Um dados Amplificação

Suponha que você está apto gatinho fotos classificador, se você quiser ser abordado pela amplificação sobre-ajuste dos dados de treinamento, mas os dados amplificada alto preço, e às vezes não podemos amplificar os dados, mas pode ser aumentada pela adição de tais imagens conjunto de treinamento. Por exemplo, imagens Flip Horizontal, e adicioná-lo ao conjunto de treinamento. Portanto, agora existem conjunto de treinamento original, e capotou esta imagem, então inverter a imagem horizontalmente através do conjunto de treinamento pode ser duplicada, porque o conjunto de treinamento têm redundância, que, embora não tão bom quanto nos reunimos conjunto adicional de novas fotos para bom, mas fazendo imagens para salva adquiridos tomar mais gatos.

Aqui Insert Picture Descrição

Além de inverter a imagem horizontalmente, você também pode livre para cortar a imagem, esta imagem é livre para girar e depois do corte original de amplificação, a imagem foi reconhecida em gatos.

Por imagens aleta e culturas casuais, podemos aumentar o conjunto de dados, os dados de treinamento adicional para gerar falsas. E uma nova, dados de imagem do gato independentes em relação a esses dados falsos adicionais não pode conter tanta informação quanto novos dados, mas não temos o custo básico, o custo é quase zero, com exceção de alguns preços de confronto. Desta maneira, o algoritmo de dados de amplificao, e outro conjunto de dados de regularização, reduzindo o excesso de montagem é relativamente barato.

Aqui Insert Picture Descrição

Como dados sintéticos, queremos verificar através de algoritmos, gato imagem depois de gato ainda é invertida horizontalmente. Notamos que eu não fiz aleta vertical, porque não queremos que a imagem de cabeça para baixo, também pode ser selecionada aleatoriamente uma parte da imagem ampliada, os gatos podem ainda ser sobre ele.

Para o reconhecimento óptico de caracteres, podemos também adicionar um digital, arte digital a ser dados amplificação rodado ou torcido, estes números adicionados ao conjunto de treinamento, eles permanecem digital. Por conveniência, eu fiz o personagem um forte processo de deformação, de modo que a forma de onda digital 4 parece ser, de fato, não tem que fazê-lo exageradas número 4 distorções, enquanto a ligeira deformação como, eu fiz isso para deixar todo mundo ver mais claramente. Quando prático, geralmente fazemos uma ligeira deformação processamento mais caráter. Porque estes 4 parece um pouco distorcida. Portanto, os dados podem ser utilizados como método de regularização de amplificação, as funções reais de positiva semelhante.

二. interrupção precoce

Há um outro método comum é chamado Cedo Parar , executando um gradiente descendente, podemos tirar o erro de treinamento, ou desenhar apenas processo de otimização função de custo, com o 0-1 vezes erro de classificação registada ao longo do conjunto de treinamento. Monotonicamente diminuiu, como se mostra na FIG.

Aqui Insert Picture Descrição

Porque no processo de formação, esperamos que a, função de custo erro de treinamento $J$ são reduzidos pela interrupção precoce, podemos não só desenhar o conteúdo do acima, também pode desenhar erro conjunto de validação, pode-se verificar função de custo no erro de classificação no coletor atual, ou o conjunto de validação, as perdas de lógica e perdas logarítmicas, você vai encontrar erro conjunto de validação geralmente começam uma tendência de queda, e então começou a subir em um nó, o papel da interrupção precoce é que você vai dizer, as redes neurais têm sido neste processo iterativo um bom desempenho, e nós estamos aqui parar de treinar isso, obter erro conjunto de validação, é como jogar um papel?

Aqui Insert Picture Descrição

Quando você não ter corrido demasiados processo iterativo na rede neural quando os parâmetros $W$ perto de zero, porque a inicialização aleatória $W$ valor Antes, o seu valor pode ter sido um pequeno valor aleatório, desde que você treinar a rede neural $W$ é um processo ainda pequeno, iterativo e no processo de formação $W$ valor vai se tornar cada vez maior, como aqui, os parâmetros de rede neural $W$ valor já é muito grande, por isso,mais cedo pararde fazer é ponto de parada no meio do processo iterativo, temos um $W$ número Sifan弗罗贝尼乌valor de tamanho médio, e $L2$ parâmetro de selecção semelhante regularização $W$ menor rede neural norma, espero que você não é sério overfitting rede neural.

Aqui Insert Picture Descrição

O termo cedo parar nome interrompido precocemente treinar a rede neural, treinamento da rede neural, eu às vezes uso cedo parar , mas ele também tem uma desvantagem, vamos descobrir.

Eu acho que o processo de aprendizagem de máquina inclui várias etapas, passo é escolher um algoritmo para otimizar a função de custo $J$ , temos uma variedade de ferramentas para resolver este problema, tais como gradiente descendente, mais tarde vou apresentar outros algoritmos, comoMomentum,RMSpropeAdam, e assim por diante, mas para otimizar a função de custo $J$ Depois disso, eu não quero para caber ocorreu, existem algumas ferramentas para resolver este problema, como a regularização, os dados de amplificação, e assim por diante.

Aqui Insert Picture Descrição

Na aprendizagem de máquina, parâmetros de super-raios, algoritmos viáveis selecionados estão se tornando cada vez mais complexo. Achei que, se otimizar a função de custo com um conjunto de ferramentas $J$ , aprendizado de máquina se torna mais fácil para otimizar a função de custo em foco $J$ , você só precisa prestar atenção $W$ e $b$ , $J (w, b)$ o valor do menor, melhor, você só precisa encontrar formas de reduzir este valor, outros não preocupação. Em seguida, evitando o excesso outras tarefas, é reduzir a variância em outras palavras, esta etapa usamos um outro conjunto de ferramentas para atingir este princípio é muitas vezes referida como "a tecnologia ortogonal." A idéia é fazer uma tarefa de cada vez, na parte traseira da classe Vou apresentá ortogonalização específico, se você não entender este conceito, não se preocupe.

Mas para mim parar cedo principal desvantagem é que você não pode lidar com essas duas questões separadamente, interrompido precocemente por causa de um gradiente descendente, ou seja, para parar a otimização da função de custo $J$ , porque agora você já não estão tentando reduzir a função de custo $J$ , de modo que a função de custo $J$ valor não pode ser pequeno, mas, ao mesmo tempo que você não quer que apareça sobre-montagem, você não tem que ter uma abordagem diferente para resolver estes dois problemas, mas com uma forma de resolver dois problemas ao mesmo tempo, o resultado disso é que eu tenho que considerar as coisas se tornam mais complicadas.

Se nenhuma interrupção precoce , outra maneira é $L2$ regularização, treinamento da rede neural pode levar um longo tempo. Descobri que isso resulta em um espaço de solução de super fácil de quebrar, e mais fácil de pesquisar, mas a desvantagem é que você tem que tentar um monte de parâmetros de regularização $\ lambda$ valor, que também levou a um grande número de pesquisa $\ lambda$ valor calculado do custo é muito alto.

Cedo parar a vantagem que apenas executado uma vez gradiente descendente, você pode descobrir $W$ menor valor, valor intermédio e um valor maior sem tentativas $L2$ parâmetro de regularização de super $\ lambda$ um monte de valor.

Se você ainda não consegue entender completamente o conceito, não importa, vamos explicar em detalhe a próxima classe de ortogonal, de modo que será melhor compreendido.

embora $L2$ desvantagens de regularização, ainda tem um monte de pessoas estão dispostas a usá-lo. professor Andrew Ng, pessoalmente, prefiro a utilização $L2$ regularização, tente muitos diferentes $\ lambda$ valor, supondo que você pode arcar com o custo de um grande número de cálculos. O usoparando cedopode obter resultados semelhantes, não tentar tantos $\ lambda$ valor.

Esta lição falamos sobre como usar a amplificação de dados, e como usar cedo parar redução de variância ou prevenção de redes neurais em sobre-montagem.

curso PPT

Aqui Insert Picture Descrição

Jichao Zhao

Publicado 186 artigos originais · ganhou elogios 7 · vê 10000 +

carta particular preocupações

1.8 Outro método de regularização - Lição aprendizagem profunda "Melhorar DNN" -Stanford Professor Andrew Ng

Outro método de regularização (Outros métodos de regularização)

curso PPT

Acho que você gosta