神经网络优化学习-——损失函数学习率

损失函数（loss）：预测值y 与已知答案y_的差距：

NN优化目标：loss最小；1.mse(均方误差) 2自定义 3.ce(Cross Entropy)

均方误差mse:loss_mse = tf.reduce_mean(tf.aquare(y_-y))

学习率：设置合适的学习率很重要（固定的学习率）

定义指数下降学习率：学习率随着训练轮数变化而动态更新

Tensorflow 的函数表示为：global_step=tf.Variable(0,trainable=False)global_step 记录了当前训练轮数，为不可训练型参数。

learning_rate=tf.train.exponential_decay(LEARNING_RATE_BASE,global_step,LEARNING_RATE_STEP,LEARNING_RATE_DECAY,staircase=True/False)其中，

LEARNING_RATE_BASE 为学习率初始值，LEARNING_RATE_DECAY 为学习率衰减率,学习率 learning_rate 更新频率为输入数据集总样本数除以每次喂入样本数。若 staircase 设置为 True 时，表示 global_step/learning rate step 取整数，学习率阶梯型衰减；若 staircase 设置为 false 时，学习率会是一条平滑下降的曲线。

滑动平均：记录每个参数一段时间内过往值得平均，增加了模型的泛化能力。针对所有参数：w,b（像是给了参数加了影子，参数变化，影子缓慢的追随）

影子=衰减率*影子 + （1-衰减率）*参数影子的初值=参数的初值

tensorflow中的实现：ema= tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY,global_step)

MOVING_AVERAGE_DECAY 值需要自己设置 global_step和上面的学习率中的设置一样

ema_op = ema.apply(tf.trainable_variables()) 对所有的待优化的参数求滑动平均

with tf.control_dependencies([train_step,ema_op]):trian_op=tf.no_op(name='train' ema.average(参数的名字)参看某参数的滑动平均值

正则化缓解过拟合：

正则化在损失函数中引入函数的复杂化指标，利用给W加权值，弱化训练数据的噪声

loss = loss(y和y_)+REGULARIZER*loss(w) 其中loss 值得是所有交叉熵的损失函数 REG指的是超参数一般是指W在总loss的比例，及正则化的权重 w 需要正则化的参数

两种正则化的函数：loss(w) = tf.contrib.layers.l1_regularizer(REGULARIZER)(W)

loss(w) = tf.contrib.layers.l2_regularizer(REGULARIZER)(W)

tf.add_to_collection('losses',tf.contrib.layers.l2_regularizer(regularizer))(w) 把内容添加到对应的位置做加法

loss = cem + tf.add_n(tf.get_collection('losses'))(例子里面只是用这一行)

第五讲：全链接网络的实现。

tensorflow 中的函数

np.save("名.npy"，某数组) 某变量名字=np.load("名.npy",encoding="").item() encoding可以不写默认为ASCII

.item() #表示遍历（键值对） tf.nn.bias_add(乘加和，bias)把bias加到乘加和上面

tf.reshape(tensor,[-1,m列]) -1表示跟随m列自动计算 np.argsort(列表) 队列表从小到大排序，并且返回索引值

tf.split(切谁，怎么切，在那个维度切) img = Io.imread(图片的路径)：读入图片

np.asarry 和np.array都是对数组进行复制当是元组的时候两者一个是改变复制另一个直接复制不会改变

神经网络优化学习-——损失函数 学习率

猜你喜欢

神经网络优化学习-——损失函数学习率