机器学习简要概述

通俗地讲，机器学习（Machine Learning，ML）就是让计算机从数据中进行自动学习，得到某种知识（或规律）。

作为一门学科，机器学习通常指一类问题以及解决这类问题的方法，即如何从观测数据（样本）中寻找规律，并利用学习到的规律（模型）对未知或无法观测的数据进行预测。

1. 首先介绍下机器学习中的一些基本概念：包括样本、特征、标签、模型、学习算法等。以一个生活中的经验学习为例，假设我们要到市场上购买苹果，但是之前毫无挑选苹果的经验，那么我们如何通过学习来获取这些知识？

首先，我们从市场上随机选取一些芒果，列出每个芒果的特征（feature）（可以称为属性（attribute））。包括颜色，大小，形状，产地，品牌，以及我们需要预测的标签（label）。标签可以连续值（比如关于芒果的甜度、水分以及成熟度的综合打分），也可以是离散值（比如“好”“坏”两类标签）。

一个标记好特征以及标签的芒果可以看作是一个样本（sample）。一组样本样本（sample），也叫示例（instance）。构成的集合称为数据集（data set）。一般将数据集分为两部分：训练集和测试集。训练集（training set）中的样本是用来训练模型的，也叫训练样本（trainingsample），而测试集（test set）中的样本是用来检验模型好坏的，也叫测试样本（test sample）。

我们用一个d 维向量表示一个芒果的所有特征构成的向量，称为特征向量（feature vector），其中每一维表示一个特征。

假设训练集由N 个样本组成，其中每个样本都是独立同分布（Identically and Independently Distributed，IID）的，即独立地从相同的数据分布中抽取的，记为

给定训练集D，我们希望让计算机自动寻找一个函数f(x, θ) 来建立每个样本特性向量x和标签y 之间的映射。对于一个样本x，我们可以通过决策函数来预测其标签的值

或标签的条件概率

其中θ 为可学习的参数。

通过一个学习算法（learning algorithm）A，在训练集上找到一组参数θ∗，使得函数f(x, θ∗) 可以近似真实的映射关系。这个过程称为学习（learning）或训练（training）过程，函数f(x, θ) 称为模型（model）。

图2.2给出了机器学习的基本概念。对一个预测任务，输入特征向量为x，出标签为y，我们选择一个函数f(x, θ)，通过学习算法A和一组训练样本D，找到一组最优的参数θ∗，得到最终的模型f(x, θ∗)。这样就可以对新的输入x进行预测。

机器学习简要概述

猜你喜欢