《机器学习》一绪论

何为机器学习：

　　Mitchell在1997年给出了形式化的定义：假设P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则关于T和P，该程序对E进行了学习。

　　通俗来说，机器学习就是通过计算的手段，利用经验来改善系统自身的性能。从实际操作上，计算机系统的经验通常以数据的形式存在。机器学习研究的主要内容，是关于计算机从数据中产生模型的算法，即学习算法learning altorithm. 有了学习算法，就能将经验数据提供给它，基于数据产生模型。

基本术语部分：

　　数据集：记录的集合，样本也可以是一个数据集，视为对样本空间的一个采样。

　　特征：反映事件或对象在某方面的表现或性质的事项

　　特征值、特征空间、特征向量、样本维数

　　学习/训练：从数据中学得模型的过程，通过执行某个学习算法来完成。

　　标记、样例、输出空间

　　假设：学得的模型对应关于数据的某种潜在规律；真实：潜在规律本身。学习过程就是为了逼近真实。

　　分类：预测的是离散值；回归：预测的是连续值；

　　测试、测试样本

　　聚类：将无标记的训练集分成若干组，可能对应一些潜在的概念划分，有助于了解数据内在的规律。

　　监督学习、非监督学习

　　泛化：学得模型适用于新样本的能力。一般来说，训练样本越多，关于样本分布的信息越多。

假设空间：

　　归纳和演绎是科学推理的两大基础手段：归纳从特殊到一般的泛化，从具体的事实归结出一般性规律；演绎是从一般到特殊的特化，从基础原理推演出具体状况。归纳学习inductive learning就是从样例中学习。狭义的归纳学习要求从训练数据中学得概念，但学习泛化性能好且语义明确的概念非常困难，现实中常用的技术大多是产生黑箱模型。

《机器学习》一 绪论

猜你喜欢

《机器学习》一绪论