get_filename_list.py

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri Dec 21 09:42:44 2018
@author:

1,在深度学习中,常常遇到读取指定目录下面文件名字并存储到python列表中的操作.

2,得到训练目录下文件列表之后,我们可以对列表内元素进行混淆处理,然后分割成两个列表:

训练用的图片文件名称列表,验证用的图片文件名称列表.

3,将文件列表中的文件拷贝到指定的路径.

4,删除指定路径下的文件..

"""
import torch.utils.data as data
import torch
from scipy.ndimage import imread
import os ,shutil
import os.path
import glob
import random
def make_train_val_filename_list_v0(path,val_percent=0.05,val=True): #这个函数写的不太好，只能用与生成训练时候数据样本的文件名称列表
'''
本函数用于将path目录下的img和mask文件分成两部分：train训练和val
将分离后的文件名字分别写道train和val字典中
path：原图片文件的路径
val_percent：验证图片集合val占比
val ：一个开关，决定是否将原始图片分割成训练集合和验证集合
       如果val=True 则分别返回训练集合与验证集合文件名子的列表，
       列表中的每个元素也是列表，[img_filename,mask_filename]
这个函数是使用os.walk(path)函数获得path目录下的文件名称。
'''
    #cwd= os.getcwd()
    #sep=os.path.sep #获取当前OS中使用的路径名称分隔符
    #img_path = cwd +sep + 'data'+sep+'train' +sep +'image' #获取指定路径
    #label_path= cwd +sep + 'data'+sep+'train' +sep +'mask'
#    img_path = self.cf.train_data_path #获取指定路径
#    label_path= self.cf.train_label_path
#    print(path)
img_label=[]
for root,dirs,files in os.walk(path):
      for name in files:
          tmp_name=os.path.splitext(name)[0] +'_mask' + os.path.splitext(name)[1]
          label_name = os.path.join(root, tmp_name)
          img_name = os.path.join(root, name)
          img_label.append([img_name,label_name])
if val:
    length = len(img_label)
    n = int(length * val_percent)
    random.shuffle(img_label)
    return {'train': img_label[:-n], 'val': img_label[-n:]} #把洗牌后的数据列表分割成两个子集合.以字典存储形式
else:
    return img_label

   def get_filename_list(root):
'''
本函数用于获取指定目录下面文件名子的列表，返回该列表
'''
dataset = []
for root,dirs,files in os.walk(root):
    for name in files:
      dataset.append(os.path.join(root, name))
for i in range(len(dataset)):
    print(dataset[i])
return dataset

def make_train_val_filename_list(path,val_percent=0.05,val=True):
'''
这个函数是：make_train_val_filename_list_v0函数的另外一个实现版本，二者功能一样
这个函数是使用glob.glob函数获得path目录下的文件名称。
本函数用于将path目录下的img和mask文件分成两部分：train训练和val
将分离后的文件名字分别写道train和val字典中
path：原图片文件的路径
val_percent：验证图片集合val占比
val ：一个开关，决定是否将原始图片分割成训练集合和验证集合
       如果val=True 则分别返回训练集合与验证集合文件名子的列表，
       列表中的每个元素也是列表，[img_filename,mask_filename]

'''
#root :root path of image and label path
# train sub filders name under the root path
dataset = []
glob_name = os.path.join(path, '*_mask.jpg') #类似于 ./data/*.jpg
for fGT in glob.glob(glob_name): #list the *_mask.jpg in the dir folder
    fName = os.path.basename(fGT)   # mask file name
    fImg = fName[:-9] + '.jpg'      # image file name ,remove "_mask"
    dataset.append( [os.path.join(path, fImg), os.path.join(path, fName)] )
if val:
    length = len(dataset)
    n = int(length * val_percent)
    random.shuffle(dataset)
    return {'train': dataset[:-n], 'val': dataset[-n:]} #把洗牌后的数据列表分割成两个子集合.以字典存储形式
else:
    return dataset

if __name__ == "__main__":
ROOT = '/home/xiaopang//data/' #指向数据的根目录
DATA_SRC = ROOT + 'src/'   #指向数据的原始图片目录
DATA_DST_TRAIN = DATA_SRC + 'train/' #指向存放测试图片的路径
DATA_DST_VAL = DATA_SRC + 'val/' #指向用于存放验证图片的路径

# dataset = make_train_val_filename_list_v0(DATA_SRC)
dataset = make_train_val_filename_list(DATA_SRC)
train = dataset['train']
val   = dataset['val']

###########################################################################
#copy files from .data/src to ".data/train" and ".data/val" folders
for file_name in train:
    img_src = file_name[0]
    label_src = file_name[1]
    img_dst   = DATA_DST_TRAIN + os.path.basename(img_src)
    label_dst = DATA_DST_TRAIN + os.path.basename(label_src)
    print(img_dst)
    print(label_dst)
#    shutil.copyfile(img_src   ,img_dst )
#    shutil.copyfile(label_src ,label_dst )
for file_name in val:
    img_src = file_name[0]
    label_src = file_name[1]
    img_dst   = DATA_DST_VAL + os.path.basename(img_src)
    label_dst = DATA_DST_VAL + os.path.basename(label_src)
    print(img_dst)
    print(label_dst)
#    shutil.copyfile(img_src   ,img_dst )
#    shutil.copyfile(label_src ,label_dst)
##############################################################################

############################################################################

    #remove files in the train and val folders
train=get_filename_list(DATA_DST_TRAIN)
for file_name in train:
    print(file_name)
    img = file_name[0]
    label = file_name[1]
#    os.remove(img)
#    os.remove(label)

val = get_filename_list(DATA_DST_VAL)
for file_name in val:
    print(file_name)
    img = file_name[0]
    label = file_name[1]
#    os.remove(img)
#    os.remove(label)
#############################################################################

猜你喜欢