过拟合

指的是，模型在train-set上的预测精度提高，在test-set的预测精度却降低
即，模型只是记住了当前模型的特征，不具备很好的泛化性

Dropout

随机将某一层的输出节点数据随机丢弃一部分，相当于创造更多样本，通过增大样本量，减少特征数量防止过拟合

梯度弥散

使用sigmoid作为激活函数的话，在反向传播过程，梯度会指数级逐渐减小，这种情况下，更新神经网络的参数会变得很慢（新值=原值-原值的梯度）
* 因此，出现了relu，其特点有如下
* 单侧抑制
* 宽阔的兴奋边界
* 稀疏激活性（同时被激活的神经元数量稀疏，模拟大脑细胞;传统的sigmoid有50%左右激活元素）
* 将隐藏层的激活函数替换为relu可以带来模型准确率的提升
* 输出层一般为sigmoid，最接近概率的输出分布

以下为单隐藏层神经网络（多层感知机）

使用Dropout（减轻过拟合）, Adagrad（自适应学习速率）, ReLU（解决梯度弥散）等辅助工具

from tensorflow.examples.tutorials.mnist import input_data
import tensorflow as tf

mnist = input_data.read_data_sets("../../mnist/", one_hot=True)
sess = tf.InteractiveSession()

Extracting ../../mnist/train-images-idx3-ubyte.gz
Extracting ../../mnist/train-labels-idx1-ubyte.gz
Extracting ../../mnist/t10k-images-idx3-ubyte.gz
Extracting ../../mnist/t10k-labels-idx1-ubyte.gz

一. 定义算法公式

b1全部置0，W1初始化为截断的正态分布（标准差0.1）

因为激活函数为ReLU，给正态分布加上噪声，打破完全对称，避免0梯度 ??

有时需要给biasis加上小干扰避免dead neuron

in_units = 784
h1_units = 300

W1 = tf.Variable(tf.truncated_normal([in_units, h1_units], stddev=0.1))
b1 = tf.Variable(tf.zeros([h1_units]))
W2 = tf.Variable(tf.zeros([h1_units, 10]))
b2 = tf.Variable(tf.zeros([10]))

# 因为在train和test的时候，dropout的比率(keep_prob)是不同的，因此初始化为placeholder
x = tf.placeholder(tf.float32, [None, in_units])
keep_prob = tf.placeholder(tf.float32)

下面定义模型结构
* 激活函数为ReLU的隐藏层y=relu(W1x+b1)
* dropout（随机置一部分节点为0）
* softmax实现输出层

hidden1 = tf.nn.relu(tf.matmul(x, W1) + b1)
hidden1_drop = tf.nn.dropout(hidden1, keep_prob=keep_prob)
y = tf.nn.softmax(tf.matmul(hidden1_drop, W2) + b2)

二. 定义loss与optimizer

y_true = tf.placeholder(tf.float32, [None, 10])
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_true * tf.log(y), reduction_indices=[1]))
train_step = tf.train.AdagradOptimizer(0.3).minimize(cross_entropy)

三. 训练

tf.global_variables_initializer().run()
for i in range(3000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    train_step.run({x: batch_xs, y_true: batch_ys, keep_prob:0.60})

四. 评估

correct_pred = tf.equal(tf.argmax(y, 1), tf.argmax(y_true, 1))
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))
print(accuracy.eval({
    x:mnist.test.images,
    y_true:mnist.test.labels,
    keep_prob:1.0
}))

0.9787

Tensorflow-浅层神经网络(MNIST数据集)

过拟合

Dropout

梯度弥散

以下为单隐藏层神经网络（多层感知机）

一. 定义算法公式

二. 定义loss与optimizer

三. 训练

四. 评估

猜你喜欢