用深度学习训练自己的数据集

编程语言 2018-10-12 01:50:47 阅读次数: 0

方法一：

keras.datasets中的常见数据集，比如mnist：

(X_train, y_train), (X_test, y_test) = mnist.load_data()

方法二：

对于自己的数据集而言：

首先，我们需要将数据分类保存在不同的文件夹中

./datasets
  ./class1
    0.png
    1.png
    2.png
    ...
   /class2
     0.png
     1.png
     2.png
      ...
   /class3
   ...

而后，编写一个函数将图片转为numpy类型

def read_image(imageName):
    im = Image.open(imageName).convert('L')
    data = np.array(im)
    return data

两个列表，存放图片和标注信息

images = []
labels = []
# 读取在datasets里面有几个文件夹 
test = os.listdir('./datasets') 
# 把文件夹里面的图片和其对应的文件夹的名字也就是对应的字 
for testPath in test: 
    for fn in os.listdir(os.path.join('datasets', testPath)): 
        if fn.endswith('.PNG'): 
            fd = os.path.join('./datasets', testPath, fn) 
            images.append(read_image(fd)) 
            labels.append(testPath)

接着我们把刚刚得到的images和labels也变成numpy类型。当然，labels首先要变成int类型

X = np.array(images)
y = np.array(list(map(int, labels)))

最后，拆分成训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=30)

但是这样做有一个缺点：

我们必须一次性把所有数据读入内存。当我们的数据量特别大的时候，这肯定是行不通的。就算数据量不大，这样也会浪费很多时间在IO上面。我们的希望的是，在训练的时候拿数据，一份一份地训练。

方法三：

datagen = ImageDataGenerator(...) 

train_generator = datagen.flow_from_directory( './datasets', target_size=(30, 30), color_mode='grayscale', batch_size=64) 

model.fit_generator(train_generator, steps_per_epoch=500, epochs=50)

本文部分参考：

https://www.jianshu.com/p/0fbe5b5d0ab8，致谢！

猜你喜欢

转载自blog.csdn.net/Jaguar_95/article/details/82970942

用深度学习训练自己的数据集

深度学习ssd检测模型训练自己的数据集

python深度学习之创建自己的数据集及训练与预测

深度学习编译darknet训练自己的数据集

caffe学习笔记（十八）--用caffenet训练自己的数据集

深度学习总结——用自己的数据集微调CLIP

用Faster RCNN训练自己的数据集

用SSD框架训练自己的数据集

用caffe训练自己的数据集(三)

用caffe训练自己的数据集(二)

用caffe训练自己的数据集(一)

用FCN训练自己数据集（Tensorflow)

用DCGAN训练自己的数据集

mmdetection学习&训练测试自己的数据集

[深度学习][原创]unet训练自己数据集整个流程和问题探索

【Linux】【深度学习】使用YOLOv4训练自己的数据集

深度学习：使用nanodet训练自己制作的数据集并测试模型，通俗易懂，适合小白

深度学习：使用UNet做图像语义分割，训练自己制作的数据集，详细教程

深度学习目标检测---使用yolov5训练自己的数据集模型（Windows系统）

深度学习DCGAN自己的数据集实现

【实验必用】如何在深度学习中加载数据集并进行训练和测试？

用py_faster_rcnn训练自己的数据集

用colab配置faster rcnn的环境，并训练自己的数据集

mmdetection 用yolox训练自己的coco数据集

【语义分割】3、用mmsegmentation训练自己的分割数据集

2023最新-用yolov8训练自己的数据集

用yolov5训练自己的数据集

【三维重建】【深度学习】instant-nsr-pl代码Pytorch实现--训练自己的数据集

YOLO训练自己的数据集

caffe训练自己的数据集

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)