《机器学习》周志华(西瓜书)学习笔记 第一章 绪论

《机器学习》周志华(西瓜书)学习笔记

第一章 绪论

1.1 引言

机器学习:它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
机器学习,是研究关于学习算法的学问。
学习算法:机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算 法”。
学习算法的作用:基于提供的经验数据产生模型;模型在面对新的情况的时候,会提供相应的判断
模型:泛指从数据中学得的结果。

1.2 基本术语

**数据集:一组记录的集合
示例/样本/特征向量:每条记录是关于一个事件或对象的描述,通常用vector表示
性attribute/特征feature:数据描述的是样本在某些方面的性质,称之为属性;
属性值attribute value:属性的取值;
属性空间attribute space/样本空间sample space/输入空间input space:对于一个样本而言,假如它有n种属性,则组成了一个n维空间,称之为样本空间;
特征向量feature vector:示例的别名;

学习learning/训练training:从数据集中学得模型的过程;
训练数据training data:学习过程中使用的数据;
训练样本training sample:训练数据中的样本;
训练集training set:数据集分为两部分,一部分用于训练模型;
假设hypothesis:学得的模型对应了数据集中某种潜在的规律,称之为假设;
真相/真实ground-truth:数据集本身的潜在的规律。学习的过程就是逼近真相的过程;
学习器learner:模型的别称;

标记label:有关示例结果的信息,一般用y表示;
样例example:具有标记信息的示例;
标记空间label space/输出空间:所有标记的集合构成的空间;

分类classification:一种典型的学习任务,将数据集按一定规律分为若干类;
回归regression:一种典型的学习任务,预测数据集对应的结果;
二分类binary classification:将数据集分为两类;
正类positive class:二分类任务其中的一类数据;
反类negative class:同上;
多分类multi-class classification:将数据集分为多类;

测试testing:学得模型后,对其进行预测的过程。机器学习是一个反复的过程,需要重复多次学习、测试、调整,才能得到准确率最高的模型;
测试样本testing sample:被预测的样本;

聚类clustering:无监督学习的一种,将训练集的数据分为若干组,而这些组事先是不知道的;
簇cluster:聚类得到的数据分类;

监督学习supervised learning:训练数据拥有标记信息;
无监督学习unsupervised learning:训练数据没有标记信息;

泛化generalization能力:学得模型适用于新样本的能力。或者说,模型预测数据的精准度;
独立同分布independent and identically distributed:简称i,i,d。假设样本是从一个很大的数据空间中,独立的从其内在分布上得到的**

猜你喜欢

转载自blog.csdn.net/sdm12345/article/details/90083509