1. Definição de campo receptivo

Campo receptivo ( $Campo Receptivo Campo___$ $Field d)$ é definido como a saída do mapa de características por cada camada da rede neural convolucional $($ $feature$ $mapa de características mapa__$ O tamanho da área mapeada na imagem de entrada original pelos pixels no $mapa$ $p ).$ A explicação mais popular é que um ponto no mapa de recursos corresponde à área na imagem de entrada original, conforme mostrado na figura abaixo.
insira a descrição da imagem aqui

2. Exemplos de campos receptivos

Aqui estão dois exemplos para ilustrar brevemente o campo receptivo. Primeiro, uma imagem de entrada 5*5 passa por um kernel de convolução de duas camadas com uma operação de convolução 3*3 para obter um campo receptivo de 5*5, onde o kernel de convolução (filtro de $f i ltro ) tamanho do$ passo ( $s tr i d e)$ 为1, $p a dd in g$ é 0, conforme mostrado na figura abaixo:
insira a descrição da imagem aqui
na figura acimaO primeiro valor no canto superior esquerdo de $Out 1$ $é$ $determinado$ $por$ $O valor da área 3 * 3 no canto superior esquerdo de In p u t$ é calculado por convolução, ou seja, $Out$ O campo receptivo do valor do canto superior esquerdo em $Out$ $1$ $é$ $Input$ A área 3*3 no canto superior esquerdo de $I$ $n$ $p$ $u$ $t ;$

O valor em $Out$ $2 é$ $determinado$ $Out1$ $A área correspondente a 3 * 3 em Out 1 é calculada por convolução, ou$ seja,O campo receptivo em $Out 2$ $é$ $Out$ $Out1$ Toda a área 3*3 $em$ $Out$ $1$ $;$

A partir disso, podemos ver $O valor de Out 2$ é determinado por $Input$ $Todas as áreas em In p u t$ são calculadas por duas camadas de convolução, ou seja, $Out$ $O campo receptivo de Out 2$ é $Input$ Todas as regiões 5*5 em $I$ $n$ $p$ $u$ $t .$
Para dar outro exemplo, a imagem de entrada de 7 * 7 é obtida após a operação de convolução de três camadas com um kernel de convolução de 3 * 3 para obter $O campo receptivo de Out 3$ é 7 * 7, que é $Out$ $Out3$ O valor em $Out$ $3 é$ $determinado$ $por$ $Os valores de todas as áreas de I n p u t$ são calculados por convolução, onde o tamanho do kernel da convolução, tamanho do passo e $Os valores de p a dd em g$ são os mesmos do exemplo acima, conforme a figura abaixo:
insira a descrição da imagem aqui

3. Cálculo do campo receptivo

Os seguintes pontos precisam ser explicados ao calcular o campo receptivo:

(1) O tamanho do campo receptivo dos pixels do mapa de recursos de saída da primeira camada de convolução é igual ao tamanho do kernel de convolução.

(2) O tamanho do campo receptivo da camada convolucional profunda está relacionado ao tamanho do filtro e ao tamanho do passo de todas as camadas anteriores a ela.

(3) Ao calcular o tamanho do campo receptivo, a influência da borda da imagem é ignorada, ou seja, o tamanho do preenchimento não é considerado.

A fórmula para calcular o tamanho do campo receptivo é dada abaixo:

$RF_{l+1} = (RF_{l}-1)*\prod_{i=1}^{l}passos_i + f_{l+1}$

onde $RF_{l+1}$ é o tamanho do campo receptivo correspondente ao mapa de recursos atual, ou seja, o campo receptivo alvo a ser calculado, $RF_{l}$ é o tamanho do campo receptivo correspondente ao mapa de recursos da camada anterior, f_{l+1} é o tamanho do núcleo de convolução da camada convolucional atual e os passos cumulativos dos $stri d es representa o produto do tamanho do passo$ de todas as camadas convolucionais antes da camada convolucional atual $.$

Pegue a segunda $s mple como exemplo$ :

$Out Layer 1$ é a saída da primeira camada de convolução, ou seja, seu campo receptivo é igual ao tamanho de seu kernel de convolução, ou seja, o campo receptivo do mapa de características de saída da primeira camada da camada $convolucional$ $é$ 3, $RF 1$ =3;

$O campo$ receptivo $da camada$ $externa$ $2$ $RF 2$ = 3 + (3 - 1) * 1 = 5, ou seja, o campo receptivo da saída do mapa de recursos pela segunda camada convolucional é 5;

O campo receptivo $da$ $camada$ $externa$ $3$ $RF 3$ = 3 + (5 - 1) * 1 = 7, ou seja, o campo receptivo da saída do mapa de recursos pela terceira camada convolucional é 7;

calculado pelo método acima é dado abaixo $A l e x n e t$ e $píton píton_$ _ $código python$ : $_$ $_$ $_$ $_$

net_struct = {
    
    
    'alexnet': {
    
    'net': [[11, 4, 0], [3, 2, 0], [5, 1, 2], [3, 2, 0], [3, 1, 1], [3, 1, 1], [3, 1, 1], [3, 2, 0]],
                'name': ['conv1', 'pool1', 'conv2', 'pool2', 'conv3', 'conv4', 'conv5', 'pool5']},
    'vgg16': {
    
    'net': [[3, 1, 1], [3, 1, 1], [2, 2, 0], [3, 1, 1], [3, 1, 1], [2, 2, 0], [3, 1, 1], [3, 1, 1], [3, 1, 1],
                      [2, 2, 0], [3, 1, 1], [3, 1, 1], [3, 1, 1], [2, 2, 0], [3, 1, 1], [3, 1, 1], [3, 1, 1],
                      [2, 2, 0]],
              'name': ['conv1_1', 'conv1_2', 'pool1', 'conv2_1', 'conv2_2', 'pool2', 'conv3_1', 'conv3_2',
                       'conv3_3', 'pool3', 'conv4_1', 'conv4_2', 'conv4_3', 'pool4', 'conv5_1', 'conv5_2', 'conv5_3',
                       'pool5']}}

# 输入图片size
imsize = 224

def outFromIn(isz, net, layernum):
    totstride = 1
    insize = isz
    for layer in range(layernum):
        fsize, stride, pad = net[layer]
        # outsize为每一层的输出size
        outsize = (insize - fsize + 2 * pad) / stride + 1
        insize = outsize
        totstride = totstride * stride
    return outsize, totstride


def inFromOut(net, layernum):
    RF = 1
    for layer in reversed(range(layernum)):
        fsize, stride, pad = net[layer]
        # 感受野计算公式
        RF = ((RF - 1) * stride) + fsize
    return RF


if __name__ == '__main__':
    print("layer output sizes given image = %dx%d" % (imsize, imsize))

    for net in net_struct.keys():
        print('************net structrue name is %s**************' % net)
        for i in range(len(net_struct[net]['net'])):
            p = outFromIn(imsize, net_struct[net]['net'], i + 1)
            rf = inFromOut(net_struct[net]['net'], i + 1)
            print("Layer Name = %s, Output size = %3d, Stride = % 3d, RF size = %3d" % (net_struct[net]['name'][i], p[0], p[1], rf))

4. O papel do campo receptivo

(1) $A tarefa$ exige que quanto maior for o campo receptivo, melhor. Por exemplo, o campo receptivo da última camada convolucional na classificação da imagem deve ser maior do que a imagem de entrada. Quanto mais profunda a profundidade da rede, maior o campo receptivo $,$ $melhor$ o desempenho;

de previsão densa $A tarefa$ exige que o campo receptivo dos pixels de saída seja grande o suficiente para garantir que informações importantes não sejam ignoradas ao tomar decisões e, geralmente, quanto mais profundo $,$ $melhor$ $;$

(3) Definir $em t$ $a$ $s$ $k$ $an c h ou$ deve corresponder estritamente ao campo receptivo, $Uma corrente muito grande ou$ que se desvie do campo receptivo afetará seriamente o desempenho da detecção.

5. Campo receptivo efetivo

$Compreendendo o_______$ $o Efetivo$ $_$ $Receptivo Efetivo Receptivo____$ $Campo Receptivo Campo___$ $Campo em___$ $em$ $Dee p$ $Neural Convolutivo Neural_________$ $N$ $e$ $u$ $r$ $a$ $l Redes$ $No artigo N e tw or k s,$ o campo receptivo efetivo ( $Receptivo Efetivo Receptivo____$ $Campo Receptivo Campo___$ $Campo$ , $ERF$ $ERF$ $_$ $_$ $ERF$ ), o artigo conclui que nem todos os pixels no campo receptivo contribuem igualmente para o vetor de saída. Em muitos casos, a distribuição de influência dos pixels na área do campo receptivo é gaussiana e o campo receptivo efetivo é responsável apenas por uma parte o campo receptivo teórico, e a distribuição Gaussiana começa do centro Atenuação rápida até a borda, a segunda foto abaixo éCampos receptivos efetivos típicos de $CNNs .$
insira a descrição da imagem aqui
Voltando a esta foto, olhamos para a área verde, o amarelo é a imagem, quando a caixa verde é digitalizada, a primeira coluna é digitalizada apenas uma vez, ou seja, participa de uma operação e as colunas subsequentes estão envolvidas em operações múltiplas, cálculos. Portanto, o campo receptivo real final apresenta uma distribuição gaussiana.
insira a descrição da imagem aqui

Campos Receptivos em Visão Computacional

1. Definição de campo receptivo

2. Exemplos de campos receptivos

3. Cálculo do campo receptivo

Acho que você gosta