深度学习之Tensorflow-优化

二次代价函数

描述模型误差:二次代价函数表达式: E = 1 / 2 ( t y ) 2 E=1/2(t-y)^2
E w = ( y t ) f ( z ) x \frac{\partial E}{\partial w}=(y-t){f}'(z)x
z = W X z=WX
激活函数的梯度 f ( z ) {f}'(z) 越大,w的大小调整得越快,训练收敛得就越快。激活函数的梯度 f ( z ) {f}'(z) 越小,w的大小调整得越慢,训练收敛得就越慢。
sigmoid function函数:
在这里插入图片描述
表明:只有在合适得位置上,函数收敛最佳。

交叉熵

在不改变激活函数时,改变代价函数,利用交叉熵代价函数: E = ( t l n ( y ) + ( 1 t ) l n ( 1 y ) ) E=-(t*ln(y)+(1-t)ln(1-y))
E w = ( t f ( z ) 1 t 1 f ( z ) ) f w = ( t f ( z ) 1 t 1 f ( z ) ) f ( z ) x = f ( z ) x f ( z ) ( 1 f ( z ) ) ( f ( z ) t ) = x ( f ( z ) t ) \frac{\partial E}{\partial w}=-(\frac{t}{f(z)}-\frac{1-t}{1-f(z)})\frac{\partial f}{\partial w}=-(\frac{t}{f(z)}-\frac{1-t}{1-f(z)})f'(z)x=\frac{f'(z)x}{f(z)(1-f(z))}(f(z)-t)=x(f(z)-t)
由于sigmoid函数: f ( z ) = f ( z ) ( 1 f ( z ) ) f'(z)=f(z)(1-f(z))

防止过拟合

1、增大数据集:随机裁剪、水平翻转、光照颜色抖动
2、early stopping:训练模型时,设置一个比较大的迭代次数。Early stopping是一种提前结束训练的策略防止过拟合。一般的做法是记录到目前为止最好的validation accuracy,当连续几次迭代没有达到最佳accuracy时,则认为accuracy不再提高,此时停止迭代,即为early stopping。
3、dropout:虚线代表神经元不参与更新和计算,每次训练时,随机选取一部分神经元不参与工作,选取百分比可以设置;
在这里插入图片描述
4、正则化项:在代价函数后面加上正则项,用于权衡正则项和 C 0 C_0 项的比重。 C 0 C_0 代表原始的代价函数,n代表样本的个数, λ \lambda 就是正则项系数,权衡正则项与 C 0 C_0 项的比重。
L1正则化: C = C 0 + λ n w w C=C_0+\frac{\lambda}{n}\sum_{w}\left |w \right |
L1正则化可以达到模型参数稀疏化的效果(稀疏化的含义是等于0)
L2正则化: C = C 0 + λ 2 n w w 2 C=C_0+\frac{\lambda}{2n}\sum_{w}w^2
L2正则化可以使得模型的权值衰减,使模型参数值都接近于0。
有L1正则化和L2正则化,就是在代价函数中加入L1正则项和L2正则项,L1正则化是全部权重的绝对值平均,L2正则化是全部权重的均方,某些神经元的权重会被设置得特别小,甚至接近0,以减小过拟合情况。

交叉熵和tensorflow应用

// 载入数据集
mnist = input_data.read_data_sets("MNIST_data",one_hot=True)
// 对数据分批次
// 每个批次的大小
batch_size = 64
// 计算一共有多少个批次
n_batch = mnist.train.num_examples // batch_size
// 定义两个placeholder
// 代表的只是个占位符,在建立session,在会话中,运行模型时通过feed_dict函数向占位符喂入数据。
x = tf.placeholder(tf.float32,[None,784])
y = tf.placeholder(tf.float32,[None,10])

// 创建一个简单的神经网络
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
prediction = tf.nn.softmax(tf.matmul(x,W)+b)

// 交叉熵代价函数
# loss = tf.losses.mean_squared_error(y,prediction)             // 二次代价函数
loss = tf.losses.softmax_cross_entropy(y,prediction)            // 交叉熵代价函数

// 使用梯度下降法	
train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)		// 优化器,有很多不同的类型

// 初始化变量
init = tf.global_variables_initializer()

// 结果存放在一个布尔型列表中
// tf.argmax(input, dimension, name=None) 
// dimension=0 按列找 
// dimension=1 按行找 
// tf.argmax()返回最大数值的下标 
// 通常和tf.equal()一起使用,计算模型准确度
// 判断,x, y 是不是相等,它的判断方法不是整体判断,而是逐个元素进行判断,如果相等就是True,不相等,就是False。
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(prediction,1))
// argmax返回一维张量中最大的值所在的位置
// 求准确率
// tf.cast函数:将 x 的数据格式转化成 dtype
// tf.reduce_mean 函数用于计算张量tensor沿着指定的数轴(tensor的某一维度)上的的平均值,主要用作降维或者计算tensor(图像)的平均值。
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
// 新建会话
with tf.Session() as sess:
	// 会话初始化
    sess.run(init)
    // 迭代次数
    for epoch in range(21):
        for batch in range(n_batch):
        	// 获取batch_size大小的数据集,然后放在batch_xs中,把数据的标签放在batch_ys中
            batch_xs,batch_ys =  mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys})
        
        acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print("Iter " + str(epoch) + ",Testing Accuracy " + str(acc))

dropout

每次训练,隐藏层都只有部分神经元工作

# 初始化权重参数的时候采用截断正态分布,偏置项加常数,采用dropout防止过拟合,加三层隐层神经元
#定义三个placeholder
x = tf.placeholder(tf.float32,[None,784])
y = tf.placeholder(tf.float32,[None,10])
keep_prob=tf.placeholder(tf.float32)
# 784-1000-500-10                # 定义网络结构      dropout 训练的时候
# 从截断的正态分布中输出随机值
W1 = tf.Variable(tf.truncated_normal([784,1000],stddev=0.1))
b1 = tf.Variable(tf.zeros([1000])+0.1)
L1 = tf.nn.tanh(tf.matmul(x,W1)+b1)
L1_drop = tf.nn.dropout(L1,keep_prob)      # dropout解决过拟合 
W2 = tf.Variable(tf.truncated_normal([1000,500],stddev=0.1))
b2 = tf.Variable(tf.zeros([500])+0.1)
L2 = tf.nn.tanh(tf.matmul(L1_drop,W2)+b2)
L2_drop = tf.nn.dropout(L2,keep_prob) 
W3 = tf.Variable(tf.truncated_normal([500,10],stddev=0.1))
b3 = tf.Variable(tf.zeros([10])+0.1)
prediction = tf.nn.softmax(tf.matmul(L2_drop,W3)+b3)
#交叉熵   交叉熵代价函数
loss = tf.losses.softmax_cross_entropy(y,prediction)
#使用梯度下降法 优化器
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(loss)
# train_step = tf.train.AdamOptimizer(1e-2).minimize(loss) #使用adam优化器
#初始化变量
init = tf.global_variables_initializer()
#结果存放在一个布尔型列表中
correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(prediction,1))#argmax返回一维张量中最大的值所在的位置
#求准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
# 新建会话开始运行神经网络
with tf.Session() as sess:
    sess.run(init)
    for epoch in range(31):
        for batch in range(n_batch):
            batch_xs,batch_ys =  mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys,keep_prob:0.5})              
            # keep_prob 百分比  对比上下程序结果,1 这个百分比的不是任何时候都可以的  2 这个百分比可以抵抗过拟合  
        test_acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels,keep_prob:1.0})
        train_acc = sess.run(accuracy,feed_dict={x:mnist.train.images,y:mnist.train.labels,keep_prob:1.0})
        print("Iter " + str(epoch) + ",Testing Accuracy " + str(test_acc) +",Training Accuracy " + str(train_acc))

正则项

正则化不一定会提供结果,复杂模型应用, 2 抵抗过拟合使用
正则化和Dropout应根据情况使用。。。交叉熵是肯定可以提高效果的

#正则项  的权值的累加
l2_loss = tf.nn.l2_loss(W1) + tf.nn.l2_loss(b1) + tf.nn.l2_loss(W2) + tf.nn.l2_loss(b2) + tf.nn.l2_loss(W3) + tf.nn.l2_loss(b3)
#交叉熵
loss = tf.losses.softmax_cross_entropy(y,prediction) + 0.0005*l2_loss
#使用梯度下降法
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(loss)

优化器

tensorflow已经将常用优化算法封装,直接调用相应的优化器函数即可。

#交叉熵代价函数
# loss = tf.losses.softmax_cross_entropy(y,prediction)             # 交叉熵代价函数
loss = tf.losses.mean_squared_error(y,prediction)                  # 二次代价函数
#使用梯度下降法
# train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)   # 梯度下降法优化器
train_step = tf.train.AdamOptimizer(0.001).minimize(loss)              # aAdam优化器 更好

神经网络优化-自适应学习率

# 定义变量
lr = tf.Variable(0.001, dtype=tf.float32)
# adam优化器 进行训练 学习率是变量lr  随训练过程变化
train_step = tf.train.AdamOptimizer(lr).minimize(loss)

with tf.Session() as sess:
    sess.run(init)
    for epoch in range(21):
    	# 更新学习率
        sess.run(tf.assign(lr, 0.001 * (0.95 ** epoch)))
        for batch in range(n_batch):
            batch_xs,batch_ys =  mnist.train.next_batch(batch_size)
            sess.run(train_step,feed_dict={x:batch_xs,y:batch_ys})
        learning_rate = sess.run(lr)
        acc = sess.run(accuracy,feed_dict={x:mnist.test.images,y:mnist.test.labels})
        print ("Iter " + str(epoch) + ", Testing Accuracy= " + str(acc) + ", Learning Rate= " + str(learning_rate))
发布了44 篇原创文章 · 获赞 8 · 访问量 6734

猜你喜欢

转载自blog.csdn.net/zhaodeming000/article/details/92442064