机器学习-西瓜书(周志华)笔记-基础概念

基本概念

1.数据集:所有判断的依据集合称为数据集;

2.示例或样本:数据集中的每条记录是关于一个事件的或对象的描述 称为示例或样本

3.向量:由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个‘特征向量’;

4.训练:从数据中学的模型的过程称为‘学习’或‘训练’;

5.样例:拥有好标记信息的示例称为样例;比如 色泽=清 根蒂=硬挺 敲声=清脆  就是好瓜 ,‘好瓜’就是这个示例的标记信息

6.标记空间:所有标记的集合称为标记空间或者输出空间;

7.根据训练数据是否拥有标记信息,学习任务大致可以划分为两大类;‘监督学习’和‘无监督学习’,分类和回归是前者的代表,而聚类则是后者的代表;

8.版本空间: 现实处理问题时常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此很多个假设与训练集一致,即存在着一个与训练集一致的‘假设集合’,我们称之为‘版本空间’ ;

9.归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好;

10.‘奥卡姆剃刀’:是一种常用的、自然科学研究中最基本的原则,即:‘若有多个假设与观察一致,则选最简单的那个’;

11.NFL定理:最优化理论,该定理的结论是,由于对所有可能函数的相互补偿,最优化算法的性能是等价的

学习笔记:

1.训练样本通常不拥有标记信息;

2.任何一个有效的机器学习算法必有其归纳偏好;

3.脱离具体问题,空泛谈论‘什么学习算法更好’毫无意义;

4.机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力;

5.连接词是∧则式子为合取范式,为∨是析取范式

猜你喜欢

转载自www.cnblogs.com/songjiantong/p/10758288.html