1.过拟合

在这里插入图片描述

2.解决方案

在这里插入图片描述

3.Dropout使用案例

数字识别例子3.0版本：

1.增加了中间层

2.用dropout解决过拟合

import tensorflow as tf
#导入手写数字相关工具包（以后还是用kears好，不用担心是否有方法要废弃）
from tensorflow.examples.tutorials.mnist import input_data

#载入数据集,这个语句会自动下载数据集，若网速慢也可以自己下载
mnist=input_data.read_data_sets("MNIST_data",one_hot=True)

Extracting MNIST_data\train-images-idx3-ubyte.gz
Extracting MNIST_data\train-labels-idx1-ubyte.gz
Extracting MNIST_data\t10k-images-idx3-ubyte.gz
Extracting MNIST_data\t10k-labels-idx1-ubyte.gz

#定义每次放入神经网路的图片数量，也就是训练数量
batch_size=50
#计算共有多少批次,mnist.train.num_examples代表训练数据的数量
n_batch=mnist.train.num_examples//batch_size

#定义三个placeholder
#[None,784]：行数不定，但有784列（因为图片像素是28*28=784，数据集表示为60000*784，因此此处列数也为784）
x=tf.placeholder(tf.float32,[None,784])
#[None,10]:数据集中每个数字可分为0到9十个类
y=tf.placeholder(tf.float32,[None,10])
#用来存放dropput工作神经元，若drop设置成1的话就是100%神经元在工作；0.5就是50%神经元在工作
dropWorkNum=tf.placeholder(tf.float32)

#创建简单的神经网络，有两层中间层（数据量小隐藏层越多越过拟合，但是因为机器跑不动，因此只有两个隐藏层）
#第一个隐藏层200个神经元，第二个隐藏层也200个
#连接输入层与中间层1
wMid1=tf.Variable(tf.truncated_normal([784,200],stddev=0.1)) #权值初始化采用迭代的正态分布，标准差为0.1
bMid1=tf.Variable(tf.zeros([200])+0.1)   #偏置值
mid1=tf.nn.tanh(tf.matmul(x,wMid1)+bMid1)
mid1_drop=tf.nn.dropout(mid1,rate=1-dropWorkNum)

#连接中间层1和中间层2
wMid2=tf.Variable(tf.truncated_normal([200,200],stddev=0.1)) #权值初始化采用迭代的正态分布，标准差为0.1
bMid2=tf.Variable(tf.zeros([200])+0.1)   #偏置值
mid2=tf.nn.tanh(tf.matmul(mid1_drop,wMid2)+bMid2)
mid2_drop=tf.nn.dropout(mid2,rate=1-dropWorkNum)

#连接中间层2与输出层
wMid3=tf.Variable(tf.truncated_normal([200,10],stddev=0.1)) #权值初始化采用迭代的正态分布，标准差为0.1
bMid3=tf.Variable(tf.zeros([10])+0.1)   #偏置值
prediction=tf.nn.softmax(tf.matmul(mid2_drop,wMid3)+bMid3)  # 通过tf.matmul(x,w)+b计算出信号总和，再通过softmax转为概率值

# #二次代价函数作为损失函数(原版本)
# loss=tf.reduce_mean(tf.square(y-prediction))

#使用对数似然函数作为代价函数
loss=tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(labels=y,logits=prediction))

#使用梯度下降法来最小化loss
train_step=tf.train.GradientDescentOptimizer(0.05).minimize(loss)

#定义准确率，来求训练好的模型的预测值准不准确：
#tf.argmax(y,1)是返回y所有类中概率最大的那个；equal是比较两个参数是否相等，返回bool类型
#因为tf.argmax(y,1)的结果是列表，因此correct_prediction也是列表
correct_prediction=tf.equal(tf.argmax(y,1),tf.argmax(prediction,1))
#接下来求准确率,tf.cast()是将bool类型的值转换为浮点型；再用reduce_mean()求平均值得出概率
accuracy=tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

#初始化变量
init=tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    for num in range(21):  #一共训练 21 次
        for i in range(n_batch):    # n_batch是训练数据的批次数量
            #获得当前批次的图片，图片数据保存在batchX，图片标签保存在batchY
            batchX,batchY=mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batchX,y:batchY,dropWorkNum:0.7})
        #每训练完一次，看一次训练数据和测试数据的准确率对比,传的数据是测试集的图片和标签
        trainData=sess.run(accuracy,feed_dict={x:mnist.train.images,y:mnist.train.labels,dropWorkNum:1.0})
        testData=sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels,dropWorkNum:1.0})
        print("保留为0.7时的第{0}次训练（前）和测试（后）数据准确率对比:".format({num}),trainData,testData)

保留为0.7时的第{0}次训练（前）和测试（后）数据准确率对比: 0.8808 0.8886
保留为0.7时的第{1}次训练（前）和测试（后）数据准确率对比: 0.9030909 0.9094
保留为0.7时的第{2}次训练（前）和测试（后）数据准确率对比: 0.9132 0.9175
保留为0.7时的第{3}次训练（前）和测试（后）数据准确率对比: 0.91916364 0.9229
保留为0.7时的第{4}次训练（前）和测试（后）数据准确率对比: 0.92218184 0.9259
保留为0.7时的第{5}次训练（前）和测试（后）数据准确率对比: 0.9261818 0.9297
保留为0.7时的第{6}次训练（前）和测试（后）数据准确率对比: 0.92896366 0.9311
保留为0.7时的第{7}次训练（前）和测试（后）数据准确率对比: 0.9317818 0.9331
保留为0.7时的第{8}次训练（前）和测试（后）数据准确率对比: 0.93292725 0.9343
保留为0.7时的第{9}次训练（前）和测试（后）数据准确率对比: 0.9363273 0.9368
保留为0.7时的第{10}次训练（前）和测试（后）数据准确率对比: 0.93783635 0.9386
保留为0.7时的第{11}次训练（前）和测试（后）数据准确率对比: 0.9394 0.9389
保留为0.7时的第{12}次训练（前）和测试（后）数据准确率对比: 0.9408909 0.9398
保留为0.7时的第{13}次训练（前）和测试（后）数据准确率对比: 0.94207275 0.9409
保留为0.7时的第{14}次训练（前）和测试（后）数据准确率对比: 0.94365454 0.941
保留为0.7时的第{15}次训练（前）和测试（后）数据准确率对比: 0.9445818 0.9424
保留为0.7时的第{16}次训练（前）和测试（后）数据准确率对比: 0.9455091 0.9433
保留为0.7时的第{17}次训练（前）和测试（后）数据准确率对比: 0.9462 0.9439
保留为0.7时的第{18}次训练（前）和测试（后）数据准确率对比: 0.94781816 0.9445
保留为0.7时的第{19}次训练（前）和测试（后）数据准确率对比: 0.9487636 0.9469
保留为0.7时的第{20}次训练（前）和测试（后）数据准确率对比: 0.94945455 0.946

3.tf.nn.dropout() 警报信息处理

当运行mid1_drop=tf.nn.dropout(mid1,keep_prob)时会报如下警告：
WARNING::tensorflow:From
calling dropout (from tensorflow.python.ops.nn_ops) with keep_prob is deprecated and will be removed in a future version.
Instructions for updating:
Please use rate instead of keep_prob. Rate should be set to rate = 1 - keep_prob

原因是上面的形式快要被废弃，要将代码改成mid1_drop=tf.nn.dropout(mid1,rate = 1-keep_prob)
原来mid1_drop=tf.nn.dropout(mid1,keep_prob)，keep_prob=0.8即意为运行80%的神经元
现在在mid1_drop=tf.nn.dropout(mid1,rate = 1-keep_prob)中，想要继续运行80%的神经元，keep_prob还等于0.8，keep_prob是保留神经元的意思；
因此在mid1_drop=tf.nn.dropout(mid1,rate = outprob)中，想要保留80%的，就要让outprob=0.2

头发天生好

发布了71 篇原创文章 · 获赞 3 · 访问量 1916

私信关注

(9) 神经网络解决过拟合（数字识别3.0版本）

文章目录