人工神经网络及人工智能基础(一)

深度学习基础
阿里云大学神经网络课程学习笔记

一、 概述

## 智能

是个体具有目的的行为,合理的思维以及有效的适应环境的综合能力。或者说智能是个体认识客观事物和运用知识解决问题的能力。

1. 感知和认识客观事物、客观世界和自我的能力:人类生存的最基本的能力,==感知是智能的基础==
2. 通过学习取得知识与积累经验的能力:==人类能够持续发展的最基本的能力==。
3. 理解知识,运用知识经验去分析、解决问题的能力:==智能的高级形式==,人类改造世界的基本能力
4. 联想、推理、判断和决策的能力:智能的高级形式,人类对==未来和未知的预测、应对能力==
5. 运用语言进行抽象、概括的能力:是==形式化描述的基础==
6. 发现、发明、创造和创新的能力:是第三种能力的高级体现
7. 实时、迅速、合理地应付复杂环境的能力:==实时反应能力==,也是人类生存的基本能力
8. 预测、洞察事物发展、变化的能力:==根据历史信息和经验,判断事物未来的发展==

人工智能(Artificial Intelligence, AI)

最初在1956年被引入,它主要眼睛就怎样让计算机模仿人脑从事推理、设计、思考、学习等思维活动,以解决和处理较复杂的问题。简单的讲,人工智能就是研究如何让计算机模仿人脑进行工作。

**多个代表性的学派**

	1. 符号主义学派: Newell 和Simon在1967年提出的假说,认为人工智能源于数学逻辑,通过数学逻辑来描述智能行为,后来发展了启发式算法>专家系统>知识工程的理论。
	2. 联接注意学派: 代表任务为McCulloch和Pitts,认为人工智能源于仿生学,特别是人脑的研究,并提出了MP模型,后来基于该模型衍生出人工神经网络等。
    3. 行为主义学派: 认为人工智能源于控制论,Wiener等提出的控制论和自组织系统等,立足于模拟人在控制过程智能行为和作用,如自组织、自寻优、自适应、自学习等

人工神经网络 (Artificial Neural Network,ANN)

是一种旨在模仿人脑结构及其功能的脑式智能信息处理系统。通常以数学和物理的方法以及信息处理的角度对人脑神经网络进行抽象,并建立某种简化模型。简单的讲,它是一种数学模型,可以用电子线路来实现,也可以通过计算机程序来模拟,是人工智能的一种研究方法。

人工神经网络的基本特征

结构特点

  1. 信息处理的并行性:单个单元处理简单,可以大规模并行处理,有较快的速度。
  2. 信息存储的分布性:信息不是存储在网络的局部,而是分布在网络所有的连接权中。
  3. 信息处理单元的互联性:处理单元之间互联,呈现出丰富的功能。
  4. 结构的可塑性:连接方式多样,结构可塑。

性能特点

  1. 高度的非线性:多个单元链接,体现出非线性。
  2. 良好的容错性:分布式存储的结构特点使容错性好。
  3. 计算的非精确性:当输入模糊信息时,通过处理连续的模拟信号及不精确的信息逼近解而非精确解。

能力特征

  1. 自学习、自组织、自适应性:根据外部环境变化通过训练或感知,能调节参数适应变化(自学习),并可按输入刺激调整构建神经网络(自组织)。

人工神经网络(ANN)功能及应用

ANN 的基本功能

  1. 联想记忆
  2. 非线性映射
  3. 分类识别
  4. 优化计算
  5. 知识处理

ANN的应用领域

  1. 信息领域:信号处理、模式识别、数据压缩…
  2. 自动化领域:系统辨识、神经控制器、智能检测…
  3. 工程领域:汽车工程、军事工程、化学工程、水利工程…
  4. 医学领域:检测数据分析、生物活性研究、医学专家系统…
  5. 经济领域:信贷分析、市场预测、监督管理…

二、人工神经网络

神经元模型

M-P模型

1943年心理学家McCulloch和数学家W.Pitts基于生物神经元的特点,提出了M-P模型。模型通过对生物神经元信息处理过程进行了简化和概括。

  1. 多个输入单个输出
  2. 不同输入权重不同
  3. 多输入累加整合
  4. 阈值特性

M-P模型:是把神经元视为二值开关元件,按照不同的方式组合来完成各种逻辑运算,能够构成逻辑与、逻辑非、逻辑或,理论上可以进而组成任意复杂的逻辑关系,若讲M-P模型按照一定的方式组织起来,可以构成具有逻辑功能的神经网络。

激活函数(Activation Function)

激活函数也叫连接函数、传递函数、变换函数或者激励函数。用来模拟神经元与激活状态之间的联系:输入达到谋和阈值后达到激活状态,否则为抑制态。不同的激活函数,会使神经元具有不同的信息处理特性。对于神经网络来讲,激活函数的主要作用就是进行线性变换,增加系统的非线性表达能力。

常见的激活函数:

  1. sgn 函数
  2. sigmoid函数
  3. Tanh函数
  4. Arctan函数

神经网络模型

神经网络模型分类

按照拓扑结构分为层次结构和互连结构

  1. 按照层次结构

    1. 单纯层次结构
    2. 层内有互连
    3. 输出层到输入层有互连
  2. 按照互连结构

    1. 全互连:每个节点都和其他所有节点连接

    2. 局部互连:每个节点只与其临近节点有连接

    3. 稀疏连接:节点之与少数距离较远的节点有连接

按照信息流向分为前馈型网络和反馈型网络

  1. 前馈型网络:网络信息从输入层到各隐藏层再到输出层逐层前进。
  2. 反馈型网络:反馈型网络中所有的节点都具有信息处理功能,并且每个节点既可以接收输入同时又可以进行输出。

前馈型网络和反馈神经网络的主要区别:

  1. 前馈神经网络各层神经元之间无连接,神经元只接受上层传来的数据,处理后传入下一层,数据正向流动;反馈神经网络层间神经元有连接,数据可以在同层间流动或反馈至前层。
  2. 前馈神经网络不考虑输出与输入在时间上的滞后效应,只表达输出与输入的映射关系;反馈神经网络考虑输出与输入之间在时间上的延迟,需要用动态方程来描述系统的模型。
  3. 前馈神经网络的学习主要采用误差修正法(如BP算法),计算过程一般比较慢,收敛速度也比较慢;反馈神经网络主要采用Hebb学习规则,一般情况下计算的收敛速度很快。
  4. 相比前馈神经网络,反馈神经网络更适合应用在联想记忆和优化计算等领域。

神经网络学习规则

学习

学习是指通过训练使个体在行为上产生比较持久改变的过程,一般来说效果随着训练了的增加而提高,即通过学习获得进步。

人工神经网络的功能由其连接的拓扑结构和网络的连接权值决定,其全体的权值W整体反应了神经网络对于所解决问题的知识储备。即一旦拓扑结构和权值确定,该网络可以应用于新的数据得到结果。

人工神经网络得学习就是通过对样本得学习训练,不断改变网络的拓扑结构及连接权值,使得输出不断接近期望输出值。

通过训练改变权值的规则被称为学习算法或者学习规则,有时也称作训练规则或者训练算法,学习规则对人工神经网络非常重要。

学习类型的类型

  1. 有监督学习:学习模式为纠错

    不断的给网络提供一个输入及其期望的正确输出(称教师信号),将ANN的实际输出和期望输出作比较,不符时,按照一定规则调整权值参数,重新计算、比较,直到网络对于给定的输入均能产生期望的输出,则认为该网络训练完成,即已学会样本数据中的知识和规则。即可用与解决实际问题。

  2. 无监督学习:学习模式自组织

    学习时不管给网络提供动态输入信息,网络根据特有的内部结构和学习规则,在输入信息流中发现可能的模式和规律,同时根据网络功能和输入信息调整权值(自组织)。使网络能对属于同一类的模式进行自动分类。该模式网络权值的调整不取决于教师信号,网络的学习评价标准隐含于网络内部。

  3. 灌输式学习:学习模式为死记硬背

    将网络设计成记忆的特别的例子,当输入为该例子时,网络可以回忆起该例子。网络权值并非训练得到,而是通过某种设计方法得到,权值一旦设计好,即一次性灌输给网络,不再变动。

赫布法则

在《The Organization of Behavior》书中解释了学习过程中大脑中的神经细胞是如何改变和调整的,认为知识和学习发生在大脑主要是通过神经元间突触的形成与变化。当细胞A的轴凸足以接近已激发细胞B,并反复持续地对细胞B放电,一些生长过程或代谢变化将发生在某一各或者这两个细胞内,以至A作为对B放电的细胞中的一个效率增加。通俗来讲就是两个神经细胞交流越多,他们连接的效率就越高,繁殖越低。

McCulloch-Pitts模型缺乏一个对人工智能而言至关重要的学习机制,M-P模型很好的简化、模拟了神经元,但是无法通过学习的方式调整、优化权重,形成有效的模型。赫布法则的出现,成为神经模型的训练(学习机制)的基础性工作。

巴甫洛夫的条件反射实验:每次给狗喂食前都先响铃,时间一长,狗就会将铃声和事物联系起来。以后如果响铃但是不给食物,狗也会流口水,受此实验启发,Habb的理论认为在同一时间被激发的神经元间的联系会被强化。例如,铃声响时一个神经元被激发,在同一时间食物的出现会激发附近的另一个神经元,那么这两个神经元间的联系会被强化,从而记住这两个事物之间存在联系。相反,如果两个神经元总是不能同步激发,那么他们之间的联系就会越来越弱。

赫布规则被作为无监督神经学习规则,广泛应用于自组织神经网络、竞争网络中。

赫布学习规则为前馈、无导师学习。只根据实际输入和输出调整权重。

在赫布学习规则中,学习信号简单的等于神经元的输出:
r = f ( W j T X ) r = f(W_{j}^{T}X)
权值向量的调整公式为:
Δ W j = η f ( W j T X ) X , η {\Delta}W_{j} = {\eta}f(W_{j}^{T}X)X,{\eta}为常数

权向量各个分量调整为:
Δ W i j = η f ( W j T X ) x i = η o i x i , i = 0 , 1 , 2... , n {\Delta}W_{ij} = {\eta}f(W_{j}^{T}X)x_i = {\eta}o_ix_i,i = 0,1,2...,n
赫布学习规则的步骤:

  1. 初始化权值参数 W,一般赋于 0 附近的随机数

  2. 初始化学习效率 η {\eta}

  3. 对所有输入记录:

    根据输入记录,更新权重值

离散感知器学习规则

**感知器(Perceptron)**是由Rosenblatt定义的具有单层神经计算丹云的神经网络结构。实际上为一种前馈网络,同层内无互连,不同层间无反馈,游侠层向上层传递,其输入、输出均为离散值,神经元对输入加权求和后,由阈值函数(激活函数)决定其输出。

离散感知器学习规则则代表一种有导师的学习方式,其规定将神经元期望输出(教师信号)与实际输出之差作为学习信号,通过训练调整权值,直到实际输出满足要求(等于或者接近于期望输出)。

在该学习规则中,学习信号等于神经元的期望输出与实际输出之差:
r = d i f ( W j T X ) , f s g n ( ) r = d_{i} - f(W_{j}^{T}X),f就是sgn()函数
权值调整公式为:
Δ W j = η r X = η ( d j o j ) = η [ d j f ( W j T X ) ] X {\Delta}W_{j} = {\eta}rX = {\eta}(d_j - o_j)= {\eta}[d_j-f(W_j^TX)]X
权向量各分量调整为:
Δ W i j = η [ d j f ( W j T X ) ] X i = η ( d j o j ) x i , i = 0 , 1 , . . . , n {\Delta}W_{ij} = {\eta}[d_j-f(W_j^TX)]X_i = {\eta}(d_j-o_j)x_i,i=0,1,...,n

离散感知器学习规则的步骤:

  1. 初始化权值参数 W ,学习效率 η {\eta}

  2. 对每一个样本,实际输出和期望输出的差满足要求:

    根据记录,更新权重

η [ d j f ( W j T X ) ] X {\eta}[d_j-f(W_j^TX)]X
权向量各分量调整为:
Δ W i j = η [ d j f ( W j T X ) ] X i = η ( d j o j ) x i , i = 0 , 1 , . . . , n {\Delta}W_{ij} = {\eta}[d_j-f(W_j^TX)]X_i = {\eta}(d_j-o_j)x_i,i=0,1,...,n

离散感知器学习规则的步骤:

  1. 初始化权值参数 W ,学习效率 η {\eta}

  2. 对每一个样本,实际输出和期望输出的差满足要求:

    根据记录,更新权重

发布了50 篇原创文章 · 获赞 23 · 访问量 1214

猜你喜欢

转载自blog.csdn.net/qq_44698161/article/details/103914771