神经网络概念总结

三种拟合方式:


防止过拟合的三种方式:

c0 表示代价函数  也可理解为 代价函数加上正则化项  正则化项中的n表示样本个数 w表示权值   为可调参数

以下各种优化器:


标准梯度下降算法在样本小的时候可以用 ,随机梯度下降算法容易引入噪点导致向错误的方向下降 ,实际工作中用批量梯度下降算法比较多。



SGD就是随机梯度下降算法,其中 大家函数的梯度就是代价函数对W求导

在SGD基础上 做一些优化 





RMS表示均方根



SGD是最慢的,速度指的是模型收敛的速度。当你训练模型的时候可以选则收敛快的 但是确率最重要(发表论文用准确率高的)


SGD逃离不了去不最小值。

根据经验来谈:如果有10个权值 那就需要准备5倍到10倍的样本


左边为VALID PADDING  右边为same padding



猜你喜欢

转载自blog.csdn.net/weixin_40355324/article/details/80066036