机器学习速成笔记(一): 主要术语

机器学习研究如何通过计算的方式,利用数据集来改善系统自身的性能。

而深度学习是属于机器学习的一个子分支。

机器学习的通用的两种类型:

  • 无监督学习:事先并没有任务训练数据的样本,需要直接对数据进行建模型。
  • 监督学习:通过已经有的训练样本(即输入信息和对应的输出)来训练,得到一个最优的模型。然后利用这个模型将所有的数据样本映射为相应的输出结果,对输出的结果进行判断。那这个最优模型,也就有对从未见过的数据做出有用的预测。

标签(label)

        标签是我们要预测的事物,标签可以是某个地方未来的房价,也可以是图片中猫、狗或任何事物等。

特征(feature)

        特征是输入变量。一些简单机器学习项目,可能只需要单个特征,而复杂的机器学习项目可能需要上百万个特征组合。

        在垃圾短信检测例子,特征可能包含:

  • 短信的来源
  • 短信中的一些特殊语句
  • 发送短信的时间段

样本

样本是指数据的特定实例缶量,样本分为两类

  • 有标签样本
  • 无标签样本

有标签样本包含标签和特征

无标签样本包含特征,但不包含标签。

一般是使用标签样本训练好模型后,使用该模型预测无标签样本的标签。在垃圾短信中,无标签样本是用户尚未添加标签的短信。

模型

模型定义了特征和标签的关系,比如 简单一元线性回归模型:  y = w * x + b:

其中:  

  • y 表示标签
  • x 表示特征值

例子:垃圾短信检测模型可能将某个特征与“垃圾短信” 相关联。

模型生命周期:

  1. 训练 ---> 创建、学习模型。喂有标签样本给模型,让模型逐渐学会特征和标签的关系。
  2. 推断 ---> 将训练好的模型预测无标签样本。

回归和分类

回归模型可以对连续值做出有用的预测,例子: 可以预测出广州的一栋房子的价格为多少?

分类模型可预测离散值。例子:可以预测这条短信是垃圾短信,还是非垃圾短信;也可以预测这张照片是猫,还是狗,还是老鼠?

猜你喜欢

转载自blog.csdn.net/qq_35200479/article/details/83384069
今日推荐