Anotações feitas após assistir ao vídeo do curso Bilibili

7-O processo geral de propagação direta_bilibili_bilibili

Perguntas pré-salvas:

1. Transformação não linear (função de ativação), como transformá-la

A entrada

2. Como operar os pesos da camada totalmente conectada

Converta a saída do mapa de recursos bidimensional pela convolução em um vetor unidimensional

Produza a matriz feature*weight (n*1) para obter um valor após a conexão completa

3. Por que a camada FC produz resultados de classificação?

4. O processo detalhado de retropropagação

1. Função de perda

1. Perda do valor da pontuação

f é a função de pontuação; pontuações Sj para outras categorias, pontuações Syi para a categoria correta, a diferença é +1, 1 é um valor de deslocamento como a tolerância; mais um RW é um termo de penalidade de regularização para evitar overfitting;

Função de perda = perda de dados + prazo de penalidade de regularização

2. Classificador Softmax de valor de probabilidade normalizado

Converter valores de pontuação em valores de probabilidade,

Use exp para amplificar a diferença e obter o valor da probabilidade. Use -log para colocar a perda entre 0 e 1. Quanto mais próximo o valor da probabilidade da categoria correta estiver de 1, menor será a perda.

Insira x e W para obter o valor de perda L passo a passo: chamado de propagação direta

3. Valor da derivada parcial da descida do gradiente de retropropagação

A retropropagação é o peso W passado por cada camada, que é calculado pelo gradiente descendente da derivada parcial

2. Infraestrutura geral da rede neural

1. Estrutura geral

Após o ajuste do peso de cada camada, uma transformação não linear será realizada (a posição do quadrado vertical vermelho na figura), e a transformação não linear será completada pela função de ativação

2. Recursos de dados de entrada da camada de entrada x

2.1 Pré-processamento de dados

Operações de padronização: subtrair a média, dividir pela variância

2.2 Inicialização de parâmetros

Estratégia aleatória, para parâmetros de peso,

A camada de entrada e a camada oculta são conectadas por parâmetros de peso

Depois de muitas camadas, cada camada realiza a extração de recursos

Após o processamento de peso multicamadas, o valor de saída é finalmente obtido

3. Função de ativação

3.1 Função sigmóide:

Quando o valor é grande ou pequeno, o efeito da derivação não é bom e ocorre o fenômeno do desaparecimento do gradiente

3.2 Função Relu

4. Perda

Obtenha a perda, depois retropropague, calcule a derivada parcial do parâmetro W de cada camada e atualize seu valor

O objetivo de toda a rede neural é encontrar o peso W de cada camada, que seja mais adequado para a tarefa atual

5. Solução de sobreajuste:

5.1 Valor da penalidade de regularização:

5.2 DESISTÊNCIA

3. Rede Neural Convolucional

1. Camada de convolução

A entrada é o valor do recurso da imagem, e o peso do filtro do meio é o kernel de convolução. Recursos do mesmo tamanho do kernel de convolução são obtidos peça por peça para fazer o produto interno (as posições correspondentes são multiplicadas e todos os resultados são somados juntos) para obter as características desta peça. O valor (é um número), e o produto interno w0 do bloco RGB no canto superior esquerdo mostrado na figura é adicionado para obter um valor de 3 (a caixa verde no certo).

Após um Filtro, um mapa de características é obtido, e n Filtros obtêm n mapas de características.Quando empilhados, a profundidade é o número de camadas do Filtro.

Uma camada de convolução pode ter vários núcleos de convolução e vários filtros, e o mapa de recursos de n camadas pode ser obtido por meio de uma camada de convolução

O tamanho do mapa de características do resultado da convolução:

2. Camada de pooling

Faça compactação, redução da resolução,

MAX POOLING: Pool máximo, selecione o valor máximo em cada quadro

Cada camada convolucional é seguida por uma camada de ativação RELU, seguida por uma camada de pooling

A camada de pooling apenas diminuirá o comprimento e a largura, e o número de camadas de feição permanecerá o mesmo

3. Camada FC totalmente conectada

O mapa de recursos multicamadas obtido pela camada de pooling é esticado em valores de recursos individuais (vetores), várias tarefas de classificação e o resultado da classificação é obtido

O número de camadas é calculado com o parâmetro de peso (CONV, FC é; a camada de ativação e a camada de pooling não são contadas como o número de camadas)

4. Rede residual Resnet

Lide com o problema de que o efeito que ocorre após o empilhamento da camada convolucional diminui

Notas do Processo de Aprendizagem (3) Rede Neural