(180903)如何将问题构建成机器学习问题----Google 机器学习速成课程笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lzw2016/article/details/82353643

问题提出

  • 如何创建模型
  • 如何结合输入的数据(信息)进行合理的预测

课程中是以垃圾邮件分类为案例展开的

在训练垃圾分类模型时,我们会提供大量的有标签样本进行创建、学习、预测模型,然后通过无标签样本来预测该样本的标签所属。

整个流程大概是这样,然后,什么是样本?标签?模型?

术语

标签 (label)和特征(feature)

标签是训练模型时提供的,比如邮件分为垃圾邮件和正常邮件这两类,这就是两个标签;也是我们要通过模型预测的事物(一封邮件是否是垃圾邮件等)

特征是大量用来描述信息的数据,{x1,x2,…xi}。即简单线性回归中的 x 变量

比如说在垃圾邮件检测器示例中,特征可能包括:
- 电子邮件文本中的字词
- 发件人的地址
- 发送电子邮件的时段
- 电子邮件中包含“一种奇怪的把戏”这样的短语

  • 有些标签可能不可靠,存在人为误标,干扰等
  • 特征应该选取可观察可量化的
    课程中提供了个买鞋的例子,假设一家在线鞋店希望创建一种监督式机器学习模型,以便为用户提供合乎个人需求的鞋子推荐。也就是说,该模型会向小马推荐某些鞋子,而向小美推荐另外一些鞋子
    - 比如鞋码、颜色、样式、用户点击次数的描述就是好的实用特征
    - 比如鞋的美观程度、用户喜好这些是模糊的、难以量化的特征

样本(example)和模型(model)

  • 样本
    • 有标签样本–>用来训练模型
    • 无标签样本–>用来预测所属标签

样本就是我们所提供的大量实际的数据 x(矢量x),有标签样本是包含特征x、标签y的数据,无标签样本是只含有特征x的数据

一个样本包含一个或多个特征,此外还可能包含一个标签

在垃圾邮件分类案例中,用户明确标记为“垃圾邮件”或“非垃圾邮件”的各个电子邮件数据就是有标签样本;用户还没分类的邮件就是无标签样本

  • 模型:反映特征和标签之间的一种映射关系,能够做到通过样本(特征)X—>预测标签Y’

x和y对应之间是有一定的参数的,

参数 (parameter)

机器学习系统自行训练的模型的变量。例如,权重就是一种参数,它们的值是机器学习系统通过连续的训练迭代逐渐学习到的

不难想象,模型生命周期分为两个阶段:

  • 训练(training):创建模型,并通过提供的有标签样本不断学习,来确定模型的理想参数
  • 推断(inference):训练后的模型用来预测无标签样本所属的标签

回归/分类 模型

回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:
- 加利福尼亚州一栋房产的价值是多少?
- 用户点击此广告的概率是多少?

分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:
- 某个指定电子邮件是垃圾邮件还是非垃圾邮件?
- 这是一张狗、猫还是仓鼠图片?

猜你喜欢

转载自blog.csdn.net/lzw2016/article/details/82353643