读书笔记--神经网络与深度学习(一)绪论与机器学习概述

1 绪论

1.1 人工智能

图灵测试:一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答,如果在相当长的时间内,他无法根据这些问题判断对方是人还是计算机,那么就可以认为这个计算机是智能的。
人工智能的主要领域大体分为:感知、学习、认知。

1.2 神经网络

感知器是最早的具有机器学习思想的神经网络,但是其学习方法无法扩展到多层。(不能解决异或等线性不可分问题)
反向传播算法有效地解决了多层神经网络的学习问题。
人工神经网络可以看做一个通用的函数逼近器。

1.3 机器学习

一般步骤:数据预处理,特征提取,特征转换(比如降维),预测(学习一个函数)。

1.4 表示学习

在表示学习中,有两个核心问题:一是“什么是一个好的表示?”;二是“如何
学习到好的表示?”

1.5 深度学习

深度学习需要解决的关键问题是贡献度分配问题(Credit Assignment Problem,CAP)[Minsky,
1963],即一个系统中不同的组件(Components)或其参数对最终系统输出结果的贡献或影响。从某种角度上讲,深度学习也可以看做是一种强化学习。
深度学习相关学术会议:
• 国际表示学习会议1(International Conference on Learning Representations,ICLR):主要聚焦于深度学习。
• 神经信息处理系统年会2(Annual Conference on Neural Information Processing Systems,NeurIPS):交叉学科会议,但偏重于机器学习。主要包括
神经信息处理,统计方法,学习理论以及应用等。
• 国际机器学习会议3(International Conference on Machine Learning,ICML):
机器学习顶级会议,深度学习作为近年来的热点,也占据了 ICML 的很大
比例。
• 国际人工智能联合会议4(International Joint Conference on Artificial Intelligence,IJCAI):人工智能领域最顶尖的综合性会议。历史悠久,从1969
年开始举办。
• 美国人工智能协会年会5(AAAI Conference on Artificial Intelligence,
AAAI):人工智能领域的顶级会议,每年二月份左右召开,地点一般在北美

2 机器学习概述

2.1基本要素

三个基本要素:模型,学习准则,优化算法。
过拟合:在训练集上表现很好,但是在位置数据上表现很差。
机器学习的学习准则并不仅仅是拟合训练集上的数据,同时也要使得泛化错误最低。
梯度下降法:通过迭代的方法计算训练集D上风险函数的最小值。(批量梯度下降法每次迭代计算所有样本)
随机梯度下降法:每次迭代只采集一个样本,计算损失函数的梯度并更新参数。可以收敛到局部最优解。随机梯度下降法相当于在批量梯度下降的梯度上引入了随机噪声,当目标函数非凸时,反而可以使其逃离局部最优点。
小批量梯度下降法:是一个折中,随机选取一小部分训练样本,利用起计算机的并行计算能力。

2.2 线性回归

自变量数量为1为简单回归,自变量数量大于1为多元回归。
最小二乘法学习参数,要求XXT矩阵可逆,但是即使可逆,也可以能有很大的共线性,导致计算不稳定。
为了解决这个问题,提出了岭回归,在XXT对角线元素都加上一个常数λ。
此外,还有最大似然估计,最大后验估计。(通过贝叶斯估计),采用贝叶斯估计的线性回归也成为贝叶斯线性回归。

2.3 理论和定理

PAC学习理论:可能近似正确学习理论
没有免费午餐定理:对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。也就是说,不能脱离具体题来谈论算法的优劣,任何算法都有局限性。必须要“具体问题具体分析”。
丑小鸭定理:。“丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”因为世界上不存在相似性的客观标准,一切相似性的标准都是主观的。
奥卡姆剃刀:最小描述长度原则。如无必要,勿增实体。简单的模型泛化能力更好。如果有两个性能相近的模
型,我们应该选择更简单的模型。因此,在机器学习的学习准则上,我们经常会引入参数正则化来限制模型能力,避免过拟合。

猜你喜欢

转载自blog.csdn.net/tianyouououou/article/details/95068273