【和我一起学西瓜书】1.绪论-术语列表

重要术语：

记录 / 样本（sample）/ 示例（instance）
数据集（data set）
属性（attribute）/ 特征（feature）
属性值（attribute value）
属性空间（attribute space）/ 样本空间（sample space）/ 输入空间
特征向量（feature vector）
维数（dimensionality）
学习（learning）/ 训练（training）
训练数据（training data）
训练样本（training sample）
训练集（training set）
假设（hypothesis）
真相/真实（ground-truth）
学习器（learner）
预测（prediction）
标记（label）
样例（example）
标记空间（label space）
分类（classification）
二分类（binary classification）
正类（positive class）/ 反类（negative class）
多分类（multi-class classification）任务
回归（regression）
测试（testing）
测试样本（testing sample）
聚类（clustering）
簇（cluster）
监督学习（supervised learning）/ 无监督学习（unsupervised learning）
泛化（generalization）/ 特化
分布（distribution）
独立同分布（independent and identically distributed）
归纳（inducting）
归纳学习（inductive study）
演绎（deduction）
概念（concept）
版本空间（version space）
归纳偏好
奥卡姆剃刀（Occam’s razor）：若有多个假设与观察一致，则选最简单的那个
没有免费的午餐定理（No Free Lunch Theorem，NFL）

释义：

记录 / 样本（sample）/ 示例（instance）：关于一个事件或对象的描述，如（色泽=青绿；根蒂=蜷缩；敲声=浊响）是一条记录
数据集（data set）：一组记录的集合
属性（attribute）/ 特征（feature）：反映事件或对象在某方面的表现或性质的事项，如色泽就是西瓜的一个属性
属性值（attribute value）：：属性上的取值
属性空间（attribute space）/ 样本空间（sample space）/ 输入空间：属性张成的空间，如把色泽、根蒂、敲声作为三个坐标轴，则可张成一个用户描述西瓜的三维空间
特征向量（feature vector）：由于样本空间中的每个点对应一个坐标向量，因此一个示例也称为一个特征向量
维数（dimensionality）：以西瓜的属性空间为例，西瓜的属性个数就是维数
学习（learning）/ 训练（training）：从数据中学得模型
训练数据（training data）：训练过程中使用的数据
训练样本（training sample）：训练过程中的样本
训练集（training set）：训练样本组成的集合
假设（hypothesis）：学得模型对应了关于数据的某种潜在的规律
真相/真实（ground-truth）：上述的潜在规律
学习器（learner）：模型，可看作学习算法在给定数据和参数空间上的实例化
预测（prediction）：书上没得啊这个，这个就不用解释了吧
标记（label）：样本的结果信息，比如“好瓜”
样例（example）：有标记信息的示例，比如被标记为“好瓜”的西瓜
标记空间（label space）：所有标记的集合，如{好瓜，坏瓜}
分类（classification）：预测结果是离散值的学习任务；比如「预测西瓜是好瓜还是坏瓜」这是一个分类任务
二分类（binary classification）：只涉及两个类别的分类任务；上述例子也是一个二分类任务
正类（positive class）/ 反类（negative class）：二分类任务中的类别，通常一个叫正类一个叫反类
多分类（multi-class classification）任务：就是不止两个类别的分类任务
回归（regression）：预测结果为连续值的学习任务；比如「预测西瓜的成熟度」，结果可能是0-100%之间的任意值
测试（testing）：学得模型后，使用其进行预测的过程
测试样本（testing sample）：测试时被预测的样本
聚类（clustering）：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程
簇（cluster）：一组类似的数据对象的集合
监督学习（supervised learning）/ 无监督学习（unsupervised learning）：训练数据是否拥有标记信息
泛化（generalization）/ 特化：泛化时特殊到一般，特化是一般到特殊；学得模型适用于新样本的能力称为泛化能力
分布（distribution）：这里应该是指概率分布，是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小，若要全面了解试验，则必须知道试验的全部可能结果及各种可能结果发生的概率，即随机试验的概率分布
独立同分布（independent and identically distributed）：在概率统计理论中，指随机过程中，任何时刻的取值都为随机变量，如果这些随机变量服从同一分布，并且互相独立，那么这些随机变量是独立同分布
归纳（inducting）：由一系列具体的事实概括出一般原理
归纳学习（inductive study）：从样例中学习；狭义又叫概念学习或概念形成
演绎（deduction）：在数学公理系统中，基于一组公理和推理规则推导出与之相洽的定理
概念（concept）：受判断所产生的对事物的理解
版本空间（version space）：与训练集一致的假设的集合
归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀（Occam’s razor）原则：若有多个假设与观察一致，则选最简单的那个
没有免费的午餐定理（No Free Lunch Theorem，NFL）：由于对所有可能函数的相互补偿，最优化算法的性能是等价的。可证得无论算法多好在没有实际背景情况下都不优于随机胡猜。NFL定理最重要意义是，在脱离实际意义情况下，空泛地谈论哪种算法好毫无意义，要谈论算法优劣必须针对具体学习问题。

关于奥卡姆剃刀原则：是由14世纪英格兰的逻辑学家、圣方济各会修士奥卡姆的威廉（William of Occam，约1285年至1349年）提出。这个原理称为“如无必要，勿增实体”，即“简单有效原理”。正如他在《箴言书注》2卷15题说“切勿浪费较多东西去做，用较少的东西，同样可以做好的事情。”

Mr_Sparta

发布了138 篇原创文章 · 获赞 168 · 访问量 32万+

私信关注

【和我一起学西瓜书】1.绪论-术语列表

猜你喜欢