《机器学习》一 绪论

何为机器学习:

  Mitchell在1997年给出了形式化的定义:假设P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则关于T和P,该程序对E进行了学习。

  通俗来说,机器学习就是通过计算的手段,利用经验来改善系统自身的性能。从实际操作上,计算机系统的经验通常以数据的形式存在。机器学习研究的主要内容,是关于计算机从数据中产生模型的算法,即学习算法learning altorithm. 有了学习算法,就能将经验数据提供给它,基于数据产生模型。

基本术语部分:

  数据集:记录的集合,样本也可以是一个数据集,视为对样本空间的一个采样。

  特征:反映事件或对象在某方面的表现或性质的事项

  特征值、特征空间、特征向量、样本维数

  学习/训练:从数据中学得模型的过程,通过执行某个学习算法来完成。

  标记、样例、输出空间

  假设:学得的模型对应关于数据的某种潜在规律;真实:潜在规律本身。学习过程就是为了逼近真实。

  分类:预测的是离散值;回归:预测的是连续值;

  测试、测试样本

  聚类:将无标记的训练集分成若干组,可能对应一些潜在的概念划分,有助于了解数据内在的规律。

  监督学习、非监督学习

  泛化:学得模型适用于新样本的能力。一般来说,训练样本越多,关于样本分布的信息越多。

假设空间:

  归纳和演绎是科学推理的两大基础手段:归纳从特殊到一般的泛化,从具体的事实归结出一般性规律;演绎是从一般到特殊的特化,从基础原理推演出具体状况。归纳学习inductive learning就是从样例中学习。狭义的归纳学习要求从训练数据中学得概念,但学习泛化性能好且语义明确的概念非常困难,现实中常用的技术大多是产生黑箱模型。

猜你喜欢

转载自www.cnblogs.com/xxdk/p/11876707.html
今日推荐