重要术语:
- 记录 / 样本(sample)/ 示例(instance)
- 数据集(data set)
- 属性(attribute)/ 特征(feature)
- 属性值(attribute value)
- 属性空间(attribute space)/ 样本空间(sample space)/ 输入空间
- 特征向量(feature vector)
- 维数(dimensionality)
- 学习(learning)/ 训练(training)
- 训练数据(training data)
- 训练样本(training sample)
- 训练集(training set)
- 假设(hypothesis)
- 真相/真实(ground-truth)
- 学习器(learner)
- 预测(prediction)
- 标记(label)
- 样例(example)
- 标记空间(label space)
- 分类(classification)
- 二分类(binary classification)
- 正类(positive class)/ 反类(negative class)
- 多分类(multi-class classification)任务
- 回归(regression)
- 测试(testing)
- 测试样本(testing sample)
- 聚类(clustering)
- 簇(cluster)
- 监督学习(supervised learning)/ 无监督学习(unsupervised learning)
- 泛化(generalization)/ 特化
- 分布(distribution)
- 独立同分布(independent and identically distributed)
- 归纳(inducting)
- 归纳学习(inductive study)
- 演绎(deduction)
- 概念(concept)
- 版本空间(version space)
- 归纳偏好
- 奥卡姆剃刀(Occam’s razor):若有多个假设与观察一致,则选最简单的那个
- 没有免费的午餐定理(No Free Lunch Theorem,NFL)
释义:
- 记录 / 样本(sample)/ 示例(instance):关于一个事件或对象的描述,如(色泽=青绿;根蒂=蜷缩;敲声=浊响)是一条记录
- 数据集(data set):一组记录的集合
- 属性(attribute)/ 特征(feature):反映事件或对象在某方面的表现或性质的事项,如色泽就是西瓜的一个属性
- 属性值(attribute value)::属性上的取值
- 属性空间(attribute space)/ 样本空间(sample space)/ 输入空间:属性张成的空间,如把色泽、根蒂、敲声作为三个坐标轴,则可张成一个用户描述西瓜的三维空间
- 特征向量(feature vector):由于样本空间中的每个点对应一个坐标向量,因此一个示例也称为一个特征向量
- 维数(dimensionality):以西瓜的属性空间为例,西瓜的属性个数就是维数
- 学习(learning)/ 训练(training):从数据中学得模型
- 训练数据(training data):训练过程中使用的数据
- 训练样本(training sample):训练过程中的样本
- 训练集(training set):训练样本组成的集合
- 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
- 真相/真实(ground-truth):上述的潜在规律
- 学习器(learner):模型,可看作学习算法在给定数据和参数空间上的实例化
- 预测(prediction):书上没得啊这个,这个就不用解释了吧
- 标记(label):样本的结果信息,比如“好瓜”
- 样例(example):有标记信息的示例,比如被标记为“好瓜”的西瓜
- 标记空间(label space):所有标记的集合,如{好瓜,坏瓜}
- 分类(classification):预测结果是离散值的学习任务;比如「预测西瓜是好瓜还是坏瓜」这是一个分类任务
- 二分类(binary classification):只涉及两个类别的分类任务;上述例子也是一个二分类任务
- 正类(positive class)/ 反类(negative class):二分类任务中的类别,通常一个叫正类一个叫反类
- 多分类(multi-class classification)任务:就是不止两个类别的分类任务
- 回归(regression):预测结果为连续值的学习任务;比如「预测西瓜的成熟度」,结果可能是0-100%之间的任意值
- 测试(testing):学得模型后,使用其进行预测的过程
- 测试样本(testing sample):测试时被预测的样本
- 聚类(clustering):将物理或抽象对象的集合分成由类似的对象组成的多个类的过程
- 簇(cluster):一组类似的数据对象的集合
- 监督学习(supervised learning)/ 无监督学习(unsupervised learning):训练数据是否拥有标记信息
- 泛化(generalization)/ 特化:泛化时特殊到一般,特化是一般到特殊;学得模型适用于新样本的能力称为泛化能力
- 分布(distribution):这里应该是指概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小,若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布
- 独立同分布(independent and identically distributed):在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布
- 归纳(inducting):由一系列具体的事实概括出一般原理
- 归纳学习(inductive study):从样例中学习;狭义又叫概念学习或概念形成
- 演绎(deduction):在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理
- 概念(concept):受判断所产生的对事物的理解
- 版本空间(version space):与训练集一致的假设的集合
- 归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
- 奥卡姆剃刀(Occam’s razor)原则:若有多个假设与观察一致,则选最简单的那个
- 没有免费的午餐定理(No Free Lunch Theorem,NFL):由于对所有可能函数的相互补偿,最优化算法的性能是等价的。可证得无论算法多好在没有实际背景情况下都不优于随机胡猜。NFL定理最重要意义是,在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。
关于奥卡姆剃刀原则:是由14世纪英格兰的逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)提出。这个原理称为“如无必要,勿增实体”,即“简单有效原理”。正如他在《箴言书注》2卷15题说“切勿浪费较多东西去做,用较少的东西,同样可以做好的事情。”