《机器学习》周志华(西瓜书)学习笔记第一章绪论

《机器学习》周志华(西瓜书)学习笔记

第一章绪论

1.1 引言

机器学习：它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。
机器学习，是研究关于学习算法的学问。
学习算法：机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。
学习算法的作用：基于提供的经验数据产生模型；模型在面对新的情况的时候，会提供相应的判断
模型：泛指从数据中学得的结果。

1.2 基本术语

**数据集：一组记录的集合
示例/样本/特征向量：每条记录是关于一个事件或对象的描述，通常用vector表示
性attribute/特征feature：数据描述的是样本在某些方面的性质，称之为属性；
属性值attribute value：属性的取值；
属性空间attribute space/样本空间sample space/输入空间input space：对于一个样本而言，假如它有n种属性，则组成了一个n维空间，称之为样本空间；
特征向量feature vector：示例的别名；

学习learning/训练training：从数据集中学得模型的过程；
训练数据training data：学习过程中使用的数据；
训练样本training sample：训练数据中的样本；
训练集training set：数据集分为两部分，一部分用于训练模型；
假设hypothesis：学得的模型对应了数据集中某种潜在的规律，称之为假设；
真相/真实ground-truth：数据集本身的潜在的规律。学习的过程就是逼近真相的过程；
学习器learner：模型的别称；

标记label：有关示例结果的信息，一般用y表示；
样例example：具有标记信息的示例；
标记空间label space/输出空间：所有标记的集合构成的空间；

分类classification：一种典型的学习任务，将数据集按一定规律分为若干类；
回归regression：一种典型的学习任务，预测数据集对应的结果；
二分类binary classification：将数据集分为两类；
正类positive class：二分类任务其中的一类数据；
反类negative class：同上；
多分类multi-class classification：将数据集分为多类；

测试testing：学得模型后，对其进行预测的过程。机器学习是一个反复的过程，需要重复多次学习、测试、调整，才能得到准确率最高的模型；
测试样本testing sample：被预测的样本；

聚类clustering：无监督学习的一种，将训练集的数据分为若干组，而这些组事先是不知道的；
簇cluster：聚类得到的数据分类；

监督学习supervised learning：训练数据拥有标记信息；
无监督学习unsupervised learning：训练数据没有标记信息；

泛化generalization能力：学得模型适用于新样本的能力。或者说，模型预测数据的精准度；
独立同分布independent and identically distributed：简称i,i,d。假设样本是从一个很大的数据空间中，独立的从其内在分布上得到的**