二次代价函数

描述模型误差：二次代价函数表达式： $E=1/2(t-y)^2$
$\frac{\partial E}{\partial w}=(y-t){f}'(z)x$
$z=WX$
激活函数的梯度 ${f}'(z)$ 越大，w的大小调整得越快，训练收敛得就越快。激活函数的梯度 ${f}'(z)$ 越小，w的大小调整得越慢，训练收敛得就越慢。
sigmoid function函数：
在这里插入图片描述
表明：只有在合适得位置上，函数收敛最佳。

交叉熵

在不改变激活函数时，改变代价函数，利用交叉熵代价函数： $E=-(t*ln(y)+(1-t)ln(1-y))$
$\frac{\partial E}{\partial w}=-(\frac{t}{f(z)}-\frac{1-t}{1-f(z)})\frac{\partial f}{\partial w}=-(\frac{t}{f(z)}-\frac{1-t}{1-f(z)})f'(z)x=\frac{f'(z)x}{f(z)(1-f(z))}(f(z)-t)=x(f(z)-t)$
由于sigmoid函数: $f'(z)=f(z)(1-f(z))$

防止过拟合

1、增大数据集：随机裁剪、水平翻转、光照颜色抖动
2、early stopping：训练模型时，设置一个比较大的迭代次数。Early stopping是一种提前结束训练的策略防止过拟合。一般的做法是记录到目前为止最好的validation accuracy，当连续几次迭代没有达到最佳accuracy时，则认为accuracy不再提高，此时停止迭代，即为early stopping。
3、dropout：虚线代表神经元不参与更新和计算，每次训练时，随机选取一部分神经元不参与工作，选取百分比可以设置；
在这里插入图片描述
4、正则化项：在代价函数后面加上正则项，用于权衡正则项和 $C_0$ 项的比重。 $C_0$ 代表原始的代价函数，n代表样本的个数， $\lambda$ 就是正则项系数，权衡正则项与 $C_0$ 项的比重。
L1正则化： $C=C_0+\frac{\lambda}{n}\sum_{w}\left |w \right |$
L1正则化可以达到模型参数稀疏化的效果(稀疏化的含义是等于0)
L2正则化： $C=C_0+\frac{\lambda}{2n}\sum_{w}w^2$
L2正则化可以使得模型的权值衰减，使模型参数值都接近于0。
有L1正则化和L2正则化，就是在代价函数中加入L1正则项和L2正则项，L1正则化是全部权重的绝对值平均，L2正则化是全部权重的均方，某些神经元的权重会被设置得特别小，甚至接近0，以减小过拟合情况。

交叉熵和tensorflow应用

// 载入数据集
mnist = input_data.read_data_sets("MNIST_data",one_hot=True)
// 对数据分批次
// 每个批次的大小
batch_size = 64
// 计算一共有多少个批次
n_batch = mnist.train.num_examples // batch_size
// 定义两个placeholder
// 代表的只是个占位符，在建立session，在会话中，运行模型时通过feed_dict函数向占位符喂入数据。
x = tf.placeholder(tf.float32,[None,784])
y = tf.placeholder(tf.float32,[None,10])

// 创建一个简单的神经网络
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
prediction = tf.nn.softmax(tf.matmul(x,W)+b)

// 交叉熵代价函数
# loss = tf.losses.mean_squared_error(y,prediction)             // 二次代价函数
loss = tf.losses.softmax_cross_entropy(y,prediction)            // 交叉熵代价函数

// 使用梯度下降法	
train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)		// 优化器，有很多不同的类型

// 初始化变量
init = tf.global_variables_initializer()

// 结果存放在一个布尔型列表中
// tf.argmax(input, dimension, name=None) 
// dimension=0 按列找 
// dimension=1 按行找 
// tf.argmax()返回最大数值的下标 
// 通常和tf.equal()一起使用，计算模型准确度
// 判断，x, y 是不是相等，它的判断方法不是整体判断，而是逐个元素进行判断，如果相等就是True，不相等，就是False。
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(prediction,1))
// argmax返回一维张量中最大的值所在的位置
// 求准确率
// tf.cast函数：将 x 的数据格式转化成 dtype
// tf.reduce_mean 函数用于计算张量tensor沿着指定的数轴（tensor的某一维度）上的的平均值，主要用作降维或者计算tensor（图像）的平均值。
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

// 新建会话
with tf.Session() as sess:
	// 会话初始化
    sess.run(init)
    // 迭代次数
    for epoch in range(21):
        for batch in range(n_batch):
        	// 获取batch_size大小的数据集，然后放在batch_xs中，把数据的标签放在batch_ys中
            batch_xs,batch_ys =  mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys})
        
        acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print("Iter " + str(epoch) + ",Testing Accuracy " + str(acc))

dropout

每次训练，隐藏层都只有部分神经元工作

# 初始化权重参数的时候采用截断正态分布，偏置项加常数，采用dropout防止过拟合，加三层隐层神经元
#定义三个placeholder
x = tf.placeholder(tf.float32,[None,784])
y = tf.placeholder(tf.float32,[None,10])
keep_prob=tf.placeholder(tf.float32)
# 784-1000-500-10                # 定义网络结构      dropout 训练的时候
# 从截断的正态分布中输出随机值
W1 = tf.Variable(tf.truncated_normal([784,1000],stddev=0.1))
b1 = tf.Variable(tf.zeros([1000])+0.1)
L1 = tf.nn.tanh(tf.matmul(x,W1)+b1)
L1_drop = tf.nn.dropout(L1,keep_prob)      # dropout解决过拟合 
W2 = tf.Variable(tf.truncated_normal([1000,500],stddev=0.1))
b2 = tf.Variable(tf.zeros([500])+0.1)
L2 = tf.nn.tanh(tf.matmul(L1_drop,W2)+b2)
L2_drop = tf.nn.dropout(L2,keep_prob) 
W3 = tf.Variable(tf.truncated_normal([500,10],stddev=0.1))
b3 = tf.Variable(tf.zeros([10])+0.1)
prediction = tf.nn.softmax(tf.matmul(L2_drop,W3)+b3)
#交叉熵   交叉熵代价函数
loss = tf.losses.softmax_cross_entropy(y,prediction)
#使用梯度下降法 优化器
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(loss)
# train_step = tf.train.AdamOptimizer(1e-2).minimize(loss) #使用adam优化器
#初始化变量
init = tf.global_variables_initializer()
#结果存放在一个布尔型列表中
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(prediction,1))#argmax返回一维张量中最大的值所在的位置
#求准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))

# 新建会话开始运行神经网络
with tf.Session() as sess:
    sess.run(init)
    for epoch in range(31):
        for batch in range(n_batch):
            batch_xs,batch_ys =  mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys,keep_prob:0.5})              
            # keep_prob 百分比  对比上下程序结果，1 这个百分比的不是任何时候都可以的  2 这个百分比可以抵抗过拟合  
        test_acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels,keep_prob:1.0})
        train_acc = sess.run(accuracy,feed_dict={x:mnist.train.images,y:mnist.train.labels,keep_prob:1.0})
        print("Iter " + str(epoch) + ",Testing Accuracy " + str(test_acc) +",Training Accuracy " + str(train_acc))

正则项

正则化不一定会提供结果，复杂模型应用， 2 抵抗过拟合使用
正则化和Dropout应根据情况使用。。。交叉熵是肯定可以提高效果的

#正则项  的权值的累加
l2_loss = tf.nn.l2_loss(W1) + tf.nn.l2_loss(b1) + tf.nn.l2_loss(W2) + tf.nn.l2_loss(b2) + tf.nn.l2_loss(W3) + tf.nn.l2_loss(b3)
#交叉熵
loss = tf.losses.softmax_cross_entropy(y,prediction) + 0.0005*l2_loss
#使用梯度下降法
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(loss)

优化器

tensorflow已经将常用优化算法封装，直接调用相应的优化器函数即可。

#交叉熵代价函数
# loss = tf.losses.softmax_cross_entropy(y,prediction)             # 交叉熵代价函数
loss = tf.losses.mean_squared_error(y,prediction)                  # 二次代价函数
#使用梯度下降法
# train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)   # 梯度下降法优化器
train_step = tf.train.AdamOptimizer(0.001).minimize(loss)              # aAdam优化器 更好

神经网络优化-自适应学习率

# 定义变量
lr = tf.Variable(0.001, dtype=tf.float32)
# adam优化器 进行训练 学习率是变量lr  随训练过程变化
train_step = tf.train.AdamOptimizer(lr).minimize(loss)

with tf.Session() as sess:
    sess.run(init)
    for epoch in range(21):
    	# 更新学习率
        sess.run(tf.assign(lr, 0.001 * (0.95 ** epoch)))
        for batch in range(n_batch):
            batch_xs,batch_ys =  mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys})
        learning_rate = sess.run(lr)
        acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print ("Iter " + str(epoch) + ", Testing Accuracy= " + str(acc) + ", Learning Rate= " + str(learning_rate))

雪天枫

发布了44 篇原创文章 · 获赞 8 · 访问量 6734

私信关注

深度学习之Tensorflow-优化

二次代价函数

交叉熵

防止过拟合

交叉熵和tensorflow应用

dropout

正则项

优化器

神经网络优化-自适应学习率

猜你喜欢