机器学习第一章学习笔记及心得(周志华著,西瓜书)

西瓜书
L1:
机器主要内容是在计算机上从数据中产生”模型(model)”的算法,即学习算法(learning algorithm),有了学习算法我们可以把经验(数据)提供给它,它能提供相应的判断。如果说计算机科学是研究关于”算法”的学问,那么机器学习就是研究关于”学习算法”的学问。
机器学习的目标是使学得的模型能很好的适用于新样本而不仅仅只在训练样本上工作得好

模型(model):泛指从数据中学得的结果
数据集(data set):记录的集合
示例(instance)/样本(sample):关于一个事件或对象的描述
属性(attribute)/特征(feature):反应事件或对象在某方面的表现或性质的事项
属性值(attribute value):属性上的取值
属性空间(attribute space)/样本空间(sample space):属性张成的空间
特征向量(feature vector):把一个示例也称作特征向量
学习(learning)/训练(training):从数据中学得模型的过程,通过执行某个学习算法来完成
训练数据(training data):训练过程使用的数据
训练样本(training sample):训练数据中的每一个样本
训练集(training set):训练样本形成的集合
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
真相/真实(ground-truth):假设中的潜在规律自身
标记(label):关于示例结果的讯息
样例(example):拥有标记信息的示例,一般用(xi, yi)表示第i个样例,其中yi, ∈Y是示例xi的标记,Y是所有标记的集合,也称为”标记空间(label space)或输出空间”
测试(testing):学得模型后使用其进行预测的过程
测试样本(testing sample):被预测的样本
泛化(generalization):学得模型适用于新样本的能力,一般而言训练样本越多泛化能力越强

预测任务:希望透过对训练集((x1, y1),(x2, y2),…(xm, ym))进行学习,建立一个从输入空间X到输出空间Y的映射f:X->Y
分类(classification):学习任务欲预测的是离散值
二分类(binary classification):只涉及两个类别的分类任务,通常称其中一个类是”正类”(positive class),另一个类是”反类”(negative class),通常令Y={-1,+1}或{0,1}
多分类(multi-class classification):涉及多个类别的分类任务,|Y|>2
回归(regression):学习任务欲预测连续值,Y为实数集

若D={x1, x2, x3,…. xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例xi =(xi1, xi2,…xid,)是d维样本空间X中的一个向量,xi∈X,其中xij 是xi在第j个属性上的取值,d称为样本xi的”维数”(dimensionality)

聚类(clustering):将训练集中的示例分成若干组
簇(cluster):示例分成若干组后每一组称”簇”,这些自动形成的簇可能对应一些潜在的概念划分

监督学习(supervised learning):分类和回归为代表
非监督学习(unsupervised learning):聚类为代表

归纳(induction):从特殊到一般的”泛化”(generalization),即从具体的事实归结出一般性规律
演绎(deduction):从一般到特殊的”特化”(specialization),即从基础原理推演出具体状况

可以把学习的过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标使找到与训练集”匹配”(fit)的假设,需要注意的是现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此可能存在多个假设与训练集一致,存在一个与训练集相同的”假设集合”,我们称为”版本空间”(version space)

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
任何一种有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上”等效”的假设所迷惑,而无法产生正确的学习结果
卡勒姆剃刀(Occam’s razor):是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”
对于一个学习算法a,若它在某些问题上比学习算法b好,必然存在另一些问题,在那里b比a好,有趣的是,这个结论对任何算法均成立。无论学习算法a多聪明,学习算法b多笨拙,他们的期望性能竟然相同,这就是”没有白吃的午餐”定理(No Free Lunch Theorem,简称NFL定理),NFL定理有一个重要前提:所有”问题”出现的机会相同、或所有问题同等重要。故脱离具体问题,空泛的谈什么学习算法更好是毫无意义的,若考虑潜在问题所有算法一样好

猜你喜欢

转载自blog.csdn.net/sun830910/article/details/84840745