1 绪论

1.1 人工智能

图灵测试：一个人在不接触对方的情况下，通过一种特殊的方式，和对方进行一系列的问答，如果在相当长的时间内，他无法根据这些问题判断对方是人还是计算机，那么就可以认为这个计算机是智能的。
人工智能的主要领域大体分为：感知、学习、认知。

1.2 神经网络

感知器是最早的具有机器学习思想的神经网络，但是其学习方法无法扩展到多层。（不能解决异或等线性不可分问题）
反向传播算法有效地解决了多层神经网络的学习问题。
人工神经网络可以看做一个通用的函数逼近器。

1.3 机器学习

一般步骤：数据预处理，特征提取，特征转换（比如降维），预测（学习一个函数）。

1.4 表示学习

在表示学习中，有两个核心问题：一是“什么是一个好的表示？”；二是“如何
学习到好的表示？”

1.5 深度学习

深度学习需要解决的关键问题是贡献度分配问题（Credit Assignment Problem，CAP）[Minsky,
1963]，即一个系统中不同的组件（Components）或其参数对最终系统输出结果的贡献或影响。从某种角度上讲，深度学习也可以看做是一种强化学习。
深度学习相关学术会议：
• 国际表示学习会议1（International Conference on Learning Representations，ICLR）：主要聚焦于深度学习。
• 神经信息处理系统年会2（Annual Conference on Neural Information Processing Systems，NeurIPS）：交叉学科会议，但偏重于机器学习。主要包括
神经信息处理，统计方法，学习理论以及应用等。
• 国际机器学习会议3（International Conference on Machine Learning，ICML）：
机器学习顶级会议，深度学习作为近年来的热点，也占据了 ICML 的很大
比例。
• 国际人工智能联合会议4（International Joint Conference on Artificial Intelligence，IJCAI）：人工智能领域最顶尖的综合性会议。历史悠久，从1969
年开始举办。
• 美国人工智能协会年会5（AAAI Conference on Artificial Intelligence，
AAAI）：人工智能领域的顶级会议，每年二月份左右召开,地点一般在北美

2 机器学习概述

2.1基本要素

三个基本要素：模型，学习准则，优化算法。
过拟合：在训练集上表现很好，但是在位置数据上表现很差。
机器学习的学习准则并不仅仅是拟合训练集上的数据，同时也要使得泛化错误最低。
梯度下降法：通过迭代的方法计算训练集D上风险函数的最小值。（批量梯度下降法每次迭代计算所有样本）
随机梯度下降法：每次迭代只采集一个样本，计算损失函数的梯度并更新参数。可以收敛到局部最优解。随机梯度下降法相当于在批量梯度下降的梯度上引入了随机噪声，当目标函数非凸时，反而可以使其逃离局部最优点。
小批量梯度下降法：是一个折中，随机选取一小部分训练样本，利用起计算机的并行计算能力。

2.2 线性回归

自变量数量为1为简单回归，自变量数量大于1为多元回归。
最小二乘法学习参数，要求XXT矩阵可逆，但是即使可逆，也可以能有很大的共线性，导致计算不稳定。
为了解决这个问题，提出了岭回归，在XXT对角线元素都加上一个常数λ。
此外，还有最大似然估计，最大后验估计。（通过贝叶斯估计），采用贝叶斯估计的线性回归也成为贝叶斯线性回归。

2.3 理论和定理

PAC学习理论：可能近似正确学习理论
没有免费午餐定理：对于基于迭代的最优化算法，不存在某种算法对所有问题（有限的搜索空间内）都有效。如果一个算法对某些问题有效，那么它一定在另外一些问题上比纯随机搜索算法更差。也就是说，不能脱离具体题来谈论算法的优劣，任何算法都有局限性。必须要“具体问题具体分析”。
丑小鸭定理：。“丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大”因为世界上不存在相似性的客观标准，一切相似性的标准都是主观的。
奥卡姆剃刀：最小描述长度原则。如无必要，勿增实体。简单的模型泛化能力更好。如果有两个性能相近的模
型，我们应该选择更简单的模型。因此，在机器学习的学习准则上，我们经常会引入参数正则化来限制模型能力，避免过拟合。

读书笔记--神经网络与深度学习（一）绪论与机器学习概述