Las preguntas relacionadas con el procesamiento de imágenes para la pre-formados clasificador de imagen en PyTorch

DanielOh :

Estoy tratando de utilizar un modelo VGG pre-formados popular para la clasificación de imágenes en PyTorch pero dado cuenta de que la imagen se ajusta a 256 y recortarla a 224 para las imágenes pre-procesamiento en la mayoría de los programas. Tengo curiosidad por eso que cambiar su tamaño para 256 primero y recortarla en lugar de cambiar su tamaño a 224 directamente.

transforms = transforms.Compose([transforms.Resize(256), 
                                 transforms.CenterCrop(224),
                                 transforms.ToTensor(),
                                 transforms.Normalize([0.485, 0.456, 0.406], 
                                                     [0.229, 0.224, 0.225])])
salud:

Para las tareas de clasificación de imágenes, por lo general el objeto de interés se encuentra en el centro de la imagen. Por lo tanto, es una práctica común (por inferencia) para tomar un cultivo central de la imagen cortando alguna frontera (esto no se aplica, en general, sin embargo, como pre-procesamiento exacto depende en gran medida de cómo se formó la red).

De acuerdo con el "por qué no cambiar el tamaño de recorte y directa", esto es un subproducto de datos de aumento durante el entrenamiento: tomar un cultivo aleatoria de la imagen es una técnica de aumento de datos muy común. A la hora de la inferencia, cambiar el tamaño de toda la imagen al tamaño de entrada en lugar de aplicar un cultivo influye en la escala de los objetos en la imagen, lo que afecta negativamente al rendimiento de la red (porque se está evaluando en los datos que tiene un "formato" diferente de la uno que entrenado en CNNs y no es invariante en escala).

Supongo que te gusta

Origin http://43.154.161.224:23101/article/api/json?id=320603&siteId=1
Recomendado
Clasificación