【西瓜书笔记】——第一章：绪论

第一章：绪论

基础名词

模型（Model）：计算机通过数据训练所学习的结果。
数据集（Data Set）：记录的集合。
示例（Instancce）或样本（Sample）：每条记录是关于一个事件或对象的描述。
属性（Attribute）或特征（Feature）：反映事件或对象在某方面的表现或性质的事项。
属性值（Attribute Value）：属性上的取值。
属性空间（Attribute Space）、样本空间（Sample Space）或输入空间（Input Space）：属性张成的空间。
特征向量（Feature Vector）：由多个特征组成的多维空间中，每一个示例或样本对应一个点；每个点对应一个坐标向量，因此把这些示例成为特征向量。
维度/维数（Dimensionality）：单个示例或样本所拥有的属性个数。
标记/标签（Label）：每个样本/示例或待预测样本所属的类别。
预测（Prediction）：当训练完毕后，运用模型对非训练集内的数据进行标签判断的过程。
样例（Example）：拥有了标记信息的示例。

<注：样本（sample）和样例（example）不一样：样本没有标签，样例有标签>

标记空间（Label Space）或输出空间（Output Space）：所有标记的集合。

训练集

学习（Learning）或训练(Training)：从数据中学得模型的过程，这个过程通过执行某个学习算法来完成。
训练数据（Training Set）：训练过程中使用的数据。
训练样本（Training Sample）：训练数据中的每个样本或示例。
训练集（Traing Set）：训练样本组成的集合。
假设（Hypothesis）：当学的模型之后，对应了关于数据的某种潜在的规律。
真相/真实（Ground-truth）：潜在规律的本身，而学习的过程就是为了找出或逼近真相。
学习器（Learner）：学习算法在给定数据和参数空间上的实例化。

离散与回归、监督与非监督

分类（Classification）：若预测的是离散值（eg.二分类0/1），则此类学习任务称为分类。
回归（Rgression）：若预测的是连续值（eg.函数），则此类学习任务称为回归。
聚类（Clustering）：将训练集中的样本分成若干个不同的小组。
簇（Cluster）：聚类过程中，所分的小组就称为簇（eg.拥有大致相似预测结果的分为一组）。
监督学习（Supervised Learning）：有标记/标签；拥有分类和回归等操作的的学习过程。
无监督学习（Unsupervised Learnig）：没有标签/标记；拥有聚类等操作的学习过程。
泛化能力（Generalization）：学习出来的模型适用于新样本的能力（评判标准能够预测未知样本标签类别的准确率）。

测试集

测试（Testing）：学的模型后，利用模型进行预测的过程。
测试样本（Testing Sample）：被预测的样本。

假设空间

归纳（Introduction）：从特殊到一般的“泛化“，即从具体的事实归结出一般性规律。<例如：从样例中学习出他们的规律。>
演绎（Deduction）：从一般到特殊的“特化”，即从基础原理推演出具体状况。<例如：从数学公理和推理规则中，推导出与之相洽的定理>

通常情况下，归纳学习分为广义和狭义。广义归纳相当于从样例中学习；而狭义归纳要求从训练数据中学得概念，因此也被称为”概念学习“或者”概念形成“。

总而言之：概念学习的含义在于：当你不知道什么是猪什么是狗的时候，通过给你5只猪、5条狗让你记住他们的特征，从而在今后在见到一摸一样的猪、狗时，能够立刻分辨出它们是什么动物。但是，如果在今后的辨别过程中混进来5只猫该怎么办呢？

学习的过程相当于在将所有假设组成的空间中进行搜索，目标是找到与训练集匹配的假设。通过确定假设的范围，从而约束假设空间的规模大小。
但是现实问题中往往面临很大的假设空间，徐熙过程是基于有限样本训练集进行的。因此可能有多个假设与训练集一致，存在与训练集一致的“假设集合”，称之为“版本空间”。

归纳偏好

归纳偏好可以看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。其本身对应了学习算法本身所作出的关于“什么样的模型更好”的假设，在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

有时拟合平滑的曲线并非最优曲线，而拟合跌宕的曲线却可能是最优的。即对于具体的情况需要特殊的分析。（“没有免费的午餐”理论）

书上P8-9页例子所示，无论算法A多聪明、算法B多笨拙，它们的期望值是相同的，这就是“没有免费的午餐”定理（NFL定理）。前提是：所有问题出现的机会相同，或所有问题同等重要。（概率事件均匀分布）
根据指标的不同，就西瓜例子而言，其稀有度、关联程度都有很大的差异。
因此，脱离具体问题，空泛谈论“什么学习算法更好”毫无意义，因为若是考虑所有潜在的问题，则所有学习算法都一样好。要谈论算法的相对优劣，必须要针对具体的学习问题。因此学习算法自身的归纳偏好与问题是否匹配，往往会起到决定性的作用。

发展历程

统计学习——20世纪90年代中期，代表技术为支持向量机（SVM）和核方法。早在60年代最早提出支持向量的概念，到70年代结构风险最小化原则。90年代后期，因为支持向量机方法的正式提出，以及连接主义学习技术（神经网络）的局限性，人们将目光转向了以统计学习理论为直接支撑的统计学习技术（事实上，统计学习与连接主义学习有着密切的联系），在支持向量机被普遍接受后，核技巧被人们用到了机器学习的每一个角落，核方法页逐渐成为机器学习的基本内容之一。

连接主义学习——早在50年代就已经有所提出。随着21世纪初的卷土重来，连接主义掀起了以深度学习为名的热潮，所谓深度学习，狭义地说就是很多层的神经网络。以往机器学习技术在应用中要取得好性能，对使用者的要求较高；而深度学习技术涉及的模型复杂度非常高，以至于只要下工夫调参，把参数调节好，性能往往就好。因此，深度学习虽缺乏严格的理论基础，但它显著降低了机器学习应用者的门槛，为机器学习技术走向工程实践带来了便利。

连接主义学习（深度学习、神经网络）热潮来临的原因——数据量大了、计算能力强了。

深度学习模型拥有大量参数，若数据样本少，则很容易过拟合。复杂模型计算、大规模数据样本，如果没有强力的计算设备，则根本无法求解。因此大数据时代的来临，数据储量和计算设备的大幅度发展，才使得联结主义学习技术焕发了又一春（第一次热潮是80年代中期，彼时也是由于Interl X86微型处理器与内存条硬件技术的广泛应用所造成的计算能力、数据访问能力效率大幅度增强）。两次热潮都与硬件和数据处理量的显著提升不无关系。

材料与拓展

机器学习主要会议：ICML会议、NIPS会议、COLT会议、ECML会议、ACML会议
国际期刊：Journal of Machine Learning Research 和 Machine Learning

人工智能主要会议：IJCAI、AAAI
国际期刊：Artificial Intelligence 和 Journal of Artificial Intelligence Research

数据挖掘主要会议：KDD、ICDM
国际期刊：ACM Transactions on Knowledge Discovery from Data 和 Data Mining and Knowledge Discovery

计算机视觉与模式识别主要会议：CVPR
国际期刊：IEEE Transactions on Pattern Analysis and Machine Intelligence

神经网络国际期刊：Neural Computation 和 IEEE Transactions on Neural Networks and Learning Systems

统计学习国际期刊：Annals of Statistics

国内机器学习活动：CCML 和 MLA