Anotações feitas após assistir ao vídeo do curso Bilibili
7-O processo geral de propagação direta_bilibili_bilibili
Perguntas pré-salvas:
1. Transformação não linear (função de ativação), como transformá-la
A entrada
2. Como operar os pesos da camada totalmente conectada
Converta a saída do mapa de recursos bidimensional pela convolução em um vetor unidimensional
Produza a matriz feature*weight (n*1) para obter um valor após a conexão completa
3. Por que a camada FC produz resultados de classificação?
4. O processo detalhado de retropropagação
1. Função de perda
1. Perda do valor da pontuação
f é a função de pontuação; pontuações Sj para outras categorias, pontuações Syi para a categoria correta, a diferença é +1, 1 é um valor de deslocamento como a tolerância; mais um RW é um termo de penalidade de regularização para evitar overfitting;
Função de perda = perda de dados + prazo de penalidade de regularização
2. Classificador Softmax de valor de probabilidade normalizado
Converter valores de pontuação em valores de probabilidade,
Use exp para amplificar a diferença e obter o valor da probabilidade. Use -log para colocar a perda entre 0 e 1. Quanto mais próximo o valor da probabilidade da categoria correta estiver de 1, menor será a perda.
Insira x e W para obter o valor de perda L passo a passo: chamado de propagação direta
3. Valor da derivada parcial da descida do gradiente de retropropagação
A retropropagação é o peso W passado por cada camada, que é calculado pelo gradiente descendente da derivada parcial
2. Infraestrutura geral da rede neural
1. Estrutura geral
Após o ajuste do peso de cada camada, uma transformação não linear será realizada (a posição do quadrado vertical vermelho na figura), e a transformação não linear será completada pela função de ativação
2. Recursos de dados de entrada da camada de entrada x
2.1 Pré-processamento de dados
Operações de padronização: subtrair a média, dividir pela variância
2.2 Inicialização de parâmetros
Estratégia aleatória, para parâmetros de peso,
A camada de entrada e a camada oculta são conectadas por parâmetros de peso
Depois de muitas camadas, cada camada realiza a extração de recursos
Após o processamento de peso multicamadas, o valor de saída é finalmente obtido
3. Função de ativação
3.1 Função sigmóide:
Quando o valor é grande ou pequeno, o efeito da derivação não é bom e ocorre o fenômeno do desaparecimento do gradiente
3.2 Função Relu
4. Perda
Obtenha a perda, depois retropropague, calcule a derivada parcial do parâmetro W de cada camada e atualize seu valor
O objetivo de toda a rede neural é encontrar o peso W de cada camada, que seja mais adequado para a tarefa atual
5. Solução de sobreajuste:
5.1 Valor da penalidade de regularização:
5.2 DESISTÊNCIA
3. Rede Neural Convolucional
1. Camada de convolução
A entrada é o valor do recurso da imagem, e o peso do filtro do meio é o kernel de convolução. Recursos do mesmo tamanho do kernel de convolução são obtidos peça por peça para fazer o produto interno (as posições correspondentes são multiplicadas e todos os resultados são somados juntos) para obter as características desta peça. O valor (é um número), e o produto interno w0 do bloco RGB no canto superior esquerdo mostrado na figura é adicionado para obter um valor de 3 (a caixa verde no certo).
Após um Filtro, um mapa de características é obtido, e n Filtros obtêm n mapas de características.Quando empilhados, a profundidade é o número de camadas do Filtro.
Uma camada de convolução pode ter vários núcleos de convolução e vários filtros, e o mapa de recursos de n camadas pode ser obtido por meio de uma camada de convolução
O tamanho do mapa de características do resultado da convolução:
2. Camada de pooling
Faça compactação, redução da resolução,
MAX POOLING: Pool máximo, selecione o valor máximo em cada quadro
Cada camada convolucional é seguida por uma camada de ativação RELU, seguida por uma camada de pooling
A camada de pooling apenas diminuirá o comprimento e a largura, e o número de camadas de feição permanecerá o mesmo
3. Camada FC totalmente conectada
O mapa de recursos multicamadas obtido pela camada de pooling é esticado em valores de recursos individuais (vetores), várias tarefas de classificação e o resultado da classificação é obtido
O número de camadas é calculado com o parâmetro de peso (CONV, FC é; a camada de ativação e a camada de pooling não são contadas como o número de camadas)
4. Rede residual Resnet
Lide com o problema de que o efeito que ocorre após o empilhamento da camada convolucional diminui