little_by_little_2 Crea una clase de conjunto de datos para un conjunto de datos. (Basado en pytorch)

Prólogo

Recientemente, caí en la ansiedad y finalmente me perdí en la confusión. No quiero mencionarlo.

Tarea

Cree un pytorch.dataset para un conjunto de datos de 100 yuanes y 1 yuanes para que lea el cargador de datos

Código fuente

import os
import random
from PIL import Image
from torch.utils.data import Dataset

random.seed(1)
rmb_label = {"1": 0, "100": 1}

#1
class RMBDataset(Dataset):
    def __init__(self, data_dir, transform=None):
        """
        rmb面额分类任务的Dataset
        :param data_dir: str, 数据集所在路径
        :param transform: torch.transform，数据预处理
        """
        self.label_name = {"1": 0, "100": 1}
        self.data_info = self.get_img_info(data_dir)  # data_info存储所有图片路径和标签，在DataLoader中通过index读取样本
        self.transform = transform
#2
    def __getitem__(self, index):
        path_img, label = self.data_info[index]
        img = Image.open(path_img).convert('RGB')     # 0~255

        if self.transform is not None:
            img = self.transform(img)   # 在这里做transform，转为tensor等等

        return img, label

    def __len__(self):
        return len(self.data_info)
#3
    @staticmethod
    def get_img_info(data_dir):
        data_info = list()
        for root, dirs, _ in os.walk(data_dir):
            # 遍历类别
            for sub_dir in dirs:
                img_names = os.listdir(os.path.join(root, sub_dir))
                img_names = list(filter(lambda x: x.endswith('.jpg'), img_names))

                # 遍历图片
                for i in range(len(img_names)):
                    img_name = img_names[i]
                    path_img = os.path.join(root, sub_dir, img_name)
                    label = rmb_label[sub_dir]
                    data_info.append((path_img, int(label)))

        return data_info

Interpretación

# 1 parte

class RMBDataset(Dataset):
    def __init__(self, data_dir, transform=None):
        """
        rmb面额分类任务的Dataset
        :param data_dir: str, 数据集所在路径
        :param transform: torch.transform，数据预处理
        """
        self.label_name = {"1": 0, "100": 1}
        self.data_info = self.get_img_info(data_dir)  # data_info存储所有图片路径和标签，在DataLoader中通过index读取样本
        self.transform = transform

Los datos de inicialización no se repiten aquí.

# 2 parte

    def __getitem__(self, index):
        path_img, label = self.data_info[index]
        img = Image.open(path_img).convert('RGB')     # 0~255

        if self.transform is not None:
            img = self.transform(img)   # 在这里做transform，转为tensor等等

        return img, label

    def __len__(self):
        return len(self.data_info)

¿Por qué se define en _get_ item? Debido a que la clase del cargador de datos se usa en pytorch para llamar a la clase del conjunto de datos de esta manera:
path_img, label = self.data_info[index] Reciba datos de datos y etiquetas
img = Image.open(path_img).convert('RGB') # 0~255 Convertir img a modo de tres canales

    if self.transform is not None:
        img = self.transform(img)   # 在这里做transform，转为tensor等等

Determine si se pasa la transformación. Si se pasa la transformación, transform.compounds se transformará.

return img, label Devolver datos y etiquetas

# 3 sección

@staticmethod
def get_img_info(data_dir):
    data_info = list()
    for root, dirs, _ in os.walk(data_dir):
        # 遍历类别
        for sub_dir in dirs:
            img_names = os.listdir(os.path.join(root, sub_dir))
            img_names = list(filter(lambda x: x.endswith('.jpg'), img_names))

            # 遍历图片
            for i in range(len(img_names)):
                img_name = img_names[i]
                path_img = os.path.join(root, sub_dir, img_name)
                label = rmb_label[sub_dir]
                data_info.append((path_img, int(label)))

    return data_info

La función de esta función es obtener los datos de todas las imágenes en la ruta y etiquetarlas
for root, dirs, _ in os.walk(data_dir): La función os.walk está involucrada aquí,

def walk(top: T,
 topdown: bool = True,
 onerror: Optional[(Exception) -> None] = None,
 followlinks: bool = False) -> Iterator[Tuple[T, List[T], List[T]]]
 top -- 是你所要遍历的目录的地址, 
 return--返回的是一个三元组(root,dirs,files)。

    root 所指的是当前正在遍历的这个文件夹的本身的地址
    dirs 是一个 list ，内容是该文件夹中所有的目录的名字(不包括子目录)
    files 同样是 list , 内容是该文件夹中所有的文件(不包括子目录)
                                   
topdown --可选，为 True，则优先遍历 top 目录，否则优先遍历 top 的子目录(默认为开启)。如果 topdown 参数为 True，walk 会遍历top文件夹，与top 文件夹中每一个子目录。

onerror -- 可选，需要一个 callable 对象，当 walk 需要异常时，会调用。

followlinks -- 可选，如果为 True，则会遍历目录下的快捷方式(linux 下是软连接 symbolic link )实际所指的目录(默认关闭)，如果为 False，则优先遍历 top 的子目录。

for sub_dir in dirs:
            img_names = os.listdir(os.path.join(root, sub_dir))
            img_names = list(filter(lambda x: x.endswith('.jpg'), img_names))

Primero explique la estructura del directorio:

Hay fotos de 1 y 100 yuanes en 1 y 100.

img_names = os.listdir(os.path.join(root, sub_dir)) Extracto ... / 1

img_names = list(filter(lambda x: x.endswith('.jpg'), img_names)) Extraiga todos los nombres de archivo que terminan en .jpg en ... / 1 y devuelva una lista, es decir, img_names se convierte en una lista llena de los nombres de todas las imágenes en el directorio ... / 1

```
        for i in range(len(img_names)):
            img_name = img_names[i]
            path_img = os.path.join(root, sub_dir, img_name)
            label = rmb_label[sub_dir]
            data_info.append((path_img, int(label)))
```
La función principal de esta función es extraer la ruta de todas las imágenes en img_names y la etiqueta. Vale la pena mencionar que label = rmb_label[sub_dir]debido a que el nombre de la carpeta en sí es la etiqueta, el método para extraer la etiqueta es extraer el nombre de la carpeta.

Finalmente, devuelva una lista data_info donde cada elemento tiene la forma de una tupla (img_path, label).