计划用六月和七月来进行机器学习的算法入门，该系列为我个人的自学笔记，欢迎同好者前来交流~
使用教材：
① 周志华老师西瓜书
② B站up主：致敬大神（系列视频叫做【一起啃书】机器学习西瓜书白话解读）

2020/6/11

（一）绪论

1.机器学习的定义

机器学习是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。（就是自己修改自己）

在计算机系统中，“经验”通常以“数据”的形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。

可以说，机器学习是研究 “学习算法” 的学问。

（二）术语

术语	解释
模型（学习器）	从数据中得到的结果（全局性结果，例如一颗决策树）
模式	局部性结果，例如一条规则
数据集	每条记录是关于一个事件或对象的描述，我们可以将其称之为一个“示例”，数据集则是记录的集合
属性	事物的特征
属性空间（样本空间、输入空间）	属性张成的空间，多重属性构成一个多维度空间，每一个记录都能在里面找到自己的位置，这个空间就叫做属性空间
特征向量	一个记录（示例）会在属性空间里获得一个点，从原点（零点）到达该特殊点则会形成一个向量，因此我们也把示例叫做特征向量
学习/训练	从数据中学的模型的过程称为“学习”
训练数据	在训练过程中产生的数据称为“训练数据”
训练样本	训练过程中的每一个示例称为训练样本
训练集	训练样本的集合
假设	学得模型对应了关于数据的某种潜在的规律
真相、真实	这种潜在规律本身
标记	训练样本在测试的时候如果自带结果，则这个结果称为标记。这就好像练习册的标准答案，不对照答案，是很难知道自己学得对不对的
“分类”学习任务	预测结果为离散值（例如只需要判断是“好瓜”还是“坏瓜”而不用判断瓜好或坏到什么程度）
“回归”学习任务	预测结果为连续值（比如西瓜成熟度为0.75%）
测试	学得模型后，对其进行预测的过程
测试样本	被预测的样本
聚类	将训练集中的西瓜分成若干组，每组成为一个“簇” 。即最后得到的结果是“本地瓜”“浅色瓜”更甜这样的信息。但“本地瓜”，“浅色瓜”这样的簇我们在实验之前是并不知道的。

根据训练数据是否拥有标记信息，学习任务可以大致分为两类：
“监督学习” 和 “无监督学习”

（请注意，训练数据是在学习过程中产生的数据。也即“监督学习”和“无监督学习”是根据学习算法的结果来区分的，而非原始输入数据的类型。）

术语	概念
监督学习	训练数据拥有标记信息，以“分类”和“回归”学习任务为代表
无监督学习	训练数据无标记信息，以“聚类”学习任务为代表
泛化	学习模型适用于新样本的能力
分布	样本空间的分布规律
独立同分布	样本都是从样本空间取出来的，但每一个都是独立取出，抽取情况彼此无关
归纳	从特殊到一般的“”泛化
演绎	从一般到特殊的推理过程“特殊化”
归纳学习（概念学习）	从样例或是训练数据中学得概念的学习任务（比如什么样的瓜是好瓜这样的概念）
匹配	我们可以把学习过程看作一个在所有假设中进行搜索的过程，搜索目标是找到与训练集匹配的假设
通配符 *	“怎么着都行”，用以标识最低要求的属性值，即对该属性没有要求
空 φ	“怎么都不行”，用以标识最高要求的属性值，即世界上没有符合标准的示例
假设空间	由假设祖晨过的空间（匹配的过程就是在这个空间中对假设进行搜索和匹配）
版本空间（假设集合）	学习过程是基于有限样本训练集进行的，所有可能有多个假设与训练集一致，因此存在着一个与训练集一致的“假设集合”，它就叫做版本空间
归纳偏好	机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好” 。当有多个假设与训练集一致时，根据归纳偏好进行选择
“奥卡姆剃刀”	当有多个假设与观察一致时，选择最简单的那个

算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

术语	解释
“没有免费的午餐”定理（NFL）	算法在一方面合用，必然在另一方面有所缺失。但每次选择算法时选择最适合的即可

机器学习算法入门笔记（一）绪论、概念、术语

（一）绪论

1.机器学习的定义

（二）术语

猜你喜欢