关于机器学习的算法已经很成熟了,在使用一些框架时甚至短短几行代码就能实现。但是每轮学习的参数是如何更新的呢?底层原理是什么呢?以下推导过程来源于西瓜书(周志华老师的机器学习)
下图中的各个符号要记牢,下面推导会用到
学习的过程其实就是寻找”最优”参数的过程,下面以whj为例进行推导。
- 如何用均方误差确定参数whj呢?
5.7式是根据链式法则而来的,第一项的求导就是根据5.4式,第二项求导则利用了sigmoid函数的性质,第三项请看图5.7中Bj的定义:whj的系数就是bn,一次函数的一阶导自然就是系数了。