机器学习算法入门笔记(一)绪论、概念、术语

计划用六月和七月来进行机器学习的算法入门,该系列为我个人的自学笔记,欢迎同好者前来交流~
使用教材:
① 周志华老师西瓜书
② B站up主:致敬大神 (系列视频叫做【一起啃书】机器学习西瓜书白话解读)

2020/6/11

(一)绪论

1.机器学习的定义

机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。(就是自己修改自己)

在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。

可以说,机器学习是研究 “学习算法” 的学问。

(二)术语

术语 解释
模型(学习器) 从数据中得到的结果(全局性结果,例如一颗决策树)
模式 局部性结果,例如一条规则
数据集 每条记录是关于一个事件或对象的描述,我们可以将其称之为一个“示例”,数据集则是记录的集合
属性 事物的特征
属性空间(样本空间、输入空间) 属性张成的空间,多重属性构成一个多维度空间,每一个记录都能在里面找到自己的位置,这个空间就叫做属性空间
特征向量 一个记录(示例)会在属性空间里获得一个点,从原点(零点)到达该特殊点则会形成一个向量,因此我们也把示例叫做特征向量
学习/训练 从数据中学的模型的过程称为“学习”
训练数据 在训练过程中产生的数据称为“训练数据”
训练样本 训练过程中的每一个示例称为训练样本
训练集 训练样本的集合
假设 学得模型对应了关于数据的某种潜在的规律
真相、真实 这种潜在规律本身
标记 训练样本在测试的时候如果自带结果,则这个结果称为标记。这就好像练习册的标准答案,不对照答案,是很难知道自己学得对不对的
“分类”学习任务 预测结果为离散值(例如只需要判断是“好瓜”还是“坏瓜”而不用判断瓜好或坏到什么程度)
“回归”学习任务 预测结果为连续值(比如西瓜成熟度为0.75%)
测试 学得模型后,对其进行预测的过程
测试样本 被预测的样本
聚类 将训练集中的西瓜分成若干组,每组成为一个“簇” 。即最后得到的结果是“本地瓜”“浅色瓜”更甜这样的信息。但“本地瓜”,“浅色瓜”这样的簇我们在实验之前是并不知道的。

根据训练数据是否拥有标记信息,学习任务可以大致分为两类:
“监督学习”“无监督学习”

(请注意,训练数据是在学习过程中产生的数据。也即“监督学习”和“无监督学习”是根据学习算法的结果来区分的,而非原始输入数据的类型。)

术语 概念
监督学习 训练数据拥有标记信息,以“分类”和“回归”学习任务为代表
无监督学习 训练数据无标记信息,以“聚类”学习任务为代表
泛化 学习模型适用于新样本的能力
分布 样本空间的分布规律
独立同分布 样本都是从样本空间取出来的,但每一个都是独立取出,抽取情况彼此无关
归纳 从特殊到一般的“”泛化
演绎 从一般到特殊的推理过程“特殊化”
归纳学习(概念学习) 从样例或是训练数据中学得概念的学习任务(比如什么样的瓜是好瓜这样的概念)
匹配 我们可以把学习过程看作一个在所有假设中进行搜索的过程,搜索目标是找到与训练集匹配的假设
通配符 * “怎么着都行”,用以标识最低要求的属性值,即对该属性没有要求
空 φ “怎么都不行”,用以标识最高要求的属性值,即世界上没有符合标准的示例
假设空间 由假设祖晨过的空间(匹配的过程就是在这个空间中对假设进行搜索和匹配)
版本空间(假设集合) 学习过程是基于有限样本训练集进行的,所有可能有多个假设与训练集一致,因此存在着一个与训练集一致的“假设集合”,它就叫做版本空间
归纳偏好 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好” 。当有多个假设与训练集一致时,根据归纳偏好进行选择
“奥卡姆剃刀” 当有多个假设与观察一致时,选择最简单的那个

算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

术语 解释
“没有免费的午餐”定理(NFL) 算法在一方面合用,必然在另一方面有所缺失。但每次选择算法时选择最适合的即可

猜你喜欢

转载自blog.csdn.net/Cambridge26/article/details/106683011