机器学习笔记一:概述

机器学习的公认定义[Mitchell, 1997]:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.

基本概念

机器学习领域常用的术语有,数据集(data set),可以细分为训练集(training set)验证集(validation set)测试集(test set)。单条记录称为实例(instance)或者样本(sample),其中包含特征(feature)标签(label),特征张成的空间称为特征空间或者样本空间(sample space),一个样本往往称为一个特征向量(feature vector)。学得模型对应了关于数据的某种潜在规律,称为假设(hypothesis),这种潜在规律自身,称为真相(groud-truth)。学得模型适用于新样本的能力,称为泛化generalization能力。所有的机器学习模型都基于这样的基本假设:样本空间中全体样本服从一个未知分布(distribution) D ,获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(independent and identically distributed, 简称 i . i . d . )

学习过程可以看作是一个在所有假设(hypothesis)组成的假设空间(hypothesis space)中进行搜索的过程,搜索目标是找到与训练集匹配(fit)的假设,假设的表示一旦确定,假设空间及其规模大小就确定了。现实问题中,假设空间会很大,但学习过程是基于有限样本训练集进行的,因此可能有多个假设与训练集一直,即存在着一个与训练集匹配的“假设集合”,称之为版本空间(version space),如何判定哪一个更好,需要根据归纳偏好(inductive bias)。归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。最常用的原则是奥卡姆剃刀原则(Occam’s razor),若有多个假设与观察一致,则选最简单的那个。

但是,没有免费的午餐定理(No Free Lunch Theorem,简称NFL),告诉我们好不是绝对的,若学习算法 L a 在某些问题上比学习算法 L b 要好,则必然存在另一些问题,在这些问题中 L b L a 表现更好,这个结论对任何算法均成立,原理简述为任意两个算法的期望性能相等
这里写图片描述
NFL定理最重要的寓意,是让我们清楚地认识到,脱离具体问题,空谈“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

统计学习方法(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习对象是数据(data),关于数据的基本假设是同类数据具有一定的统计规律性。对数据的预测与分析是通过构建概率统计模型实现的。

统计学习三要素

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型(model)策略(strategy)算法(algorithm)

方法 = 模型 + 策略 + 算法

发展历程

猜你喜欢

转载自blog.csdn.net/CrazyTensor/article/details/80216781