Tensorflow-浅层神经网络(MNIST数据集)

过拟合

指的是,模型在train-set上的预测精度提高,在test-set的预测精度却降低
即, 模型只是记住了当前模型的特征,不具备很好的泛化性

Dropout

随机将某一层的输出节点数据随机丢弃一部分,相当于创造更多样本,通过增大样本量,减少特征数量防止过拟合

梯度弥散

使用sigmoid作为激活函数的话,在反向传播过程,梯度会指数级逐渐减小,这种情况下,更新神经网络的参数会变得很慢(新值=原值-原值的梯度)
* 因此,出现了relu,其特点有如下
* 单侧抑制
* 宽阔的兴奋边界
* 稀疏激活性(同时被激活的神经元数量稀疏,模拟大脑细胞;传统的sigmoid有50%左右激活元素)
* 将隐藏层的激活函数替换为relu可以带来模型准确率的提升
* 输出层一般为sigmoid,最接近概率的输出分布

以下为单隐藏层神经网络(多层感知机)

使用Dropout(减轻过拟合), Adagrad(自适应学习速率), ReLU(解决梯度弥散)等辅助工具

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf
mnist = input_data.read_data_sets("../../mnist/", one_hot=True)
sess = tf.InteractiveSession()
Extracting ../../mnist/train-images-idx3-ubyte.gz
Extracting ../../mnist/train-labels-idx1-ubyte.gz
Extracting ../../mnist/t10k-images-idx3-ubyte.gz
Extracting ../../mnist/t10k-labels-idx1-ubyte.gz

一. 定义算法公式

  • b1全部置0,W1初始化为截断的正态分布(标准差0.1)
  • 因为激活函数为ReLU,给正态分布加上噪声,打破完全对称,避免0梯度 ??
  • 有时需要给biasis加上小干扰避免dead neuron
in_units = 784
h1_units = 300

W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1))
b1 = tf.Variable(tf.zeros([h1_units]))
W2 = tf.Variable(tf.zeros([h1_units, 10]))
b2 = tf.Variable(tf.zeros([10]))
# 因为在train和test的时候,dropout的比率(keep_prob)是不同的,因此初始化为placeholder
x = tf.placeholder(tf.float32, [None, in_units])
keep_prob = tf.placeholder(tf.float32)

下面定义模型结构
* 激活函数为ReLU的隐藏层y=relu(W1x+b1)
* dropout(随机置一部分节点为0)
* softmax实现输出层

hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)
hidden1_drop = tf.nn.dropout(hidden1, keep_prob=keep_prob)
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)

二. 定义loss与optimizer

y_true = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_true * tf.log(y), reduction_indices=[1]))
train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)

三. 训练

tf.global_variables_initializer().run()
for i in range(3000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x: batch_xs, y_true: batch_ys, keep_prob:0.60})

四. 评估

correct_pred = tf.equal(tf.argmax(y, 1), tf.argmax(y_true, 1))
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))
print(accuracy.eval({
    x:mnist.test.images,
    y_true:mnist.test.labels,
    keep_prob:1.0
}))
0.9787

猜你喜欢

转载自blog.csdn.net/SarKerson/article/details/78656508