机器学习简要概述

              通俗地讲,机器学习(Machine Learning,ML)就是让计算机从数据中进行自动学习,得到某种知识(或规律)。

作为一门学科,机器学习通常指一类问题以及解决这类问题的方法,即如何从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测。

1. 首先介绍下机器学习中的一些基本概念:包括样本、特征、标签、模型、学习算法等。以一个生活中的经验学习为例,假设我们要到市场上购买苹果,但是之前毫无挑选苹果的经验,那么我们如何通过学习来获取这些知识?

          首先,我们从市场上随机选取一些芒果,列出每个芒果的特征(feature) (可以称为属性(attribute))。包括颜色,大小,形状,产地,品牌,以及我们需要预测的标签(label)。标签可以连续值(比如关于芒果的甜度、水分以及成熟度的综合打分),也可以是离散值(比如“好”“坏”两类标签)。

           一个标记好特征以及标签的芒果可以看作是一个样本(sample)。一组样本样本(sample),也叫示例(instance)。构成的集合称为数据集(data set)。一般将数据集分为两部分:训练集和测试集。训练集(training set)中的样本是用来训练模型的,也叫训练样本(trainingsample),而测试集(test set)中的样本是用来检验模型好坏的,也叫测试样本(test sample)。

我们用一个d 维向量 表示一个芒果的所有特征构成的向量,称为特征向量(feature vector),其中每一维表示一个特征 。

         假设训练集由N 个样本组成,其中每个样本都是独立同分布(Identically  and Independently Distributed,IID)的,即独立地从相同的数据分布中抽取的,记为

                                  

       给定训练集D,我们希望让计算机自动寻找一个函数f(x, θ) 来建立每个样本特性向量x和标签y 之间的映射。对于一个样本x,我们可以通过决策函数来预测其标签的值 

                                            

或标签的条件概率

                                          

其中θ 为可学习的参数。

 通过一个学习算法(learning algorithm)A,在训练集上找到一组参数θ∗,使得函数f(x, θ∗) 可以近似真实的映射关系。这个过程称为学习(learning)或 训练(training)过程,函数f(x, θ) 称为模型(model)。

图2.2给出了机器学习的基本概念。对一个预测任务,输入特征向量为x,出标签为y,我们选择一个函数f(x, θ),通过学习算法A和一组训练样本D,找到一组最优的参数θ∗,得到最终的模型f(x, θ∗)。这样就可以对新的输入x进行预测。

                                 

猜你喜欢

转载自blog.csdn.net/fg13821267836/article/details/91397979