上篇文章讲了《世界观 - 经验事实和哲学性/概念性事实》,很多科学真理和事实是基于复杂的论证过程,进而形成人们的世界观,推演,证明经过很多复杂的往复和推理过程,起初是经由发现,获取更多线索,不断证明,并不断被挑战(可证伪性),最终形成当下的世界观,人脑的思维过程能否被机器替代,今天主要简述下神经网络(Neural Network)。
01
神经网络(Neural Network)
人的神经网络如上图所示,有点像树,有很多树突和轴突,不同的细胞通过树突和轴突传递信息,他们的基础点叫突触,一个细胞的轴突通过突触将信号传递给另一个细胞的树突。
我们能否设计这样的神经细胞结构,让彼此之间的通过某种方式相互刺激、协同完成信息处理呢?
最早在1957年Rosenblatt提出了Perceptron(感知器模型)就讲研究领域带入到了神经网络。
02
神经元
神经元是神经细胞的基本组成单元,也是将要介绍的神经网络的主要组成部分。
神经网络的神经元主要由两部分组成,”线性模型“和”非线性模型(激励函数)“。
先说线性模型
X是一个一维向量,w0是bias(偏置值),w是权重矩阵,线性部分f(x)是神经元最核心的部分,对X做线性处理。
X可以看做是真理的某种假设,如相对论中,有个”奎因-迪昂论点”, 一些观点的集合,用来证明科学的过程中,可以摒弃(wk=0)或修改(调整wl),我们的观点并不是单独的,而是作为整体来面对经验的裁判。
有点不好理解,简单来说,判断一个人是不是自己心目中的另一半,可能有多个要求和因素X(年龄,身高,收入,性格,国籍等),那么适不适合是一个综合判定。
得到:
f(x)简化为
03
激励函数(Activation Function)
激励函数相当于在一个神经元当中跟随在f(x)后面加入了一个非线性因素。
常见的激励函数
Wikipedia给出了很多种类的激励函数如下:
为什么需要引入非线性的关系 - 激励函数?
如何仅仅包含线性函数,那么拟合的结果仅仅包含线性关系。
举个例子,我们需要区分下图中的红绿色
现实中人脑可能是通过人眼区分颜色,然后在判断是什么数字,比如我们体检的时候可能都看过一类图片,然后医生会让我们说出数字,如果仅包含线性关系,对于颜色分类这一pa,就可能会是
过于非黑即白,简单粗暴。现实中,我们需要这样的拟合如下:
04
单层神经网络 & 损失函数
单层神经网络,简单说来就是前面的模型
问题来了,如何选取W,得到最优的判断结果y?
实际中,让拟合与真实差异之和最小,在上面例子中让下面公式的值最小,
扩展到整个矩阵
让Loss尽可能的小。
另外几种衡量损失的角度:
05
多层神经网络
现实中可能需要多个隐藏层,有多个神经元,共同作用来拟合y,如下图。
每一层的输出,作为下一层的输入,实际上就是深度学习的过程。
06
损失优化
对于损失函数的计算,如何获取到最小的损失值的W。
直观感受,遍历所有的W基本是不可能的,如何找到W,从斜率衰减(Gradient Descent)的角度,Learning rate就先对是计算效率和精准的一个权衡角度。
选取Gradient Descent需要很多技巧,如何选取真正的最深谷底,还是到达波谷就停止计算?是一个技术活,参考《https://arxiv.org/pdf/1712.09913.pdf》会得到一些启发。
07
后续
清明节休息,这两天去了古北水镇,环境很好,挺悠闲,南方小城的感觉。
参考:
https://zh.wikipedia.org/wiki/%E7%A5%9E%E7%B6%93%E5%85%83
https://en.wikipedia.org/wiki/Activation_function
https://www.cnblogs.com/subconscious/p/5058741.html
https://arxiv.org/pdf/1712.09913.pdf
THE END
- 晚安 -
图片长按2秒,识别图中二维码,关注订阅号