机器学习研究如何通过计算的方式,利用数据集来改善系统自身的性能。
而深度学习是属于机器学习的一个子分支。
机器学习的通用的两种类型:
- 无监督学习:事先并没有任务训练数据的样本,需要直接对数据进行建模型。
- 监督学习:通过已经有的训练样本(即输入信息和对应的输出)来训练,得到一个最优的模型。然后利用这个模型将所有的数据样本映射为相应的输出结果,对输出的结果进行判断。那这个最优模型,也就有对从未见过的数据做出有用的预测。
标签(label)
标签是我们要预测的事物,标签可以是某个地方未来的房价,也可以是图片中猫、狗或任何事物等。
特征(feature)
特征是输入变量。一些简单机器学习项目,可能只需要单个特征,而复杂的机器学习项目可能需要上百万个特征组合。
在垃圾短信检测例子,特征可能包含:
- 短信的来源
- 短信中的一些特殊语句
- 发送短信的时间段
样本
样本是指数据的特定实例缶量,样本分为两类
- 有标签样本
- 无标签样本
有标签样本包含标签和特征
无标签样本包含特征,但不包含标签。
一般是使用标签样本训练好模型后,使用该模型预测无标签样本的标签。在垃圾短信中,无标签样本是用户尚未添加标签的短信。
模型
模型定义了特征和标签的关系,比如 简单一元线性回归模型: y = w * x + b:
其中:
- y 表示标签
- x 表示特征值
例子:垃圾短信检测模型可能将某个特征与“垃圾短信” 相关联。
模型生命周期:
- 训练 ---> 创建、学习模型。喂有标签样本给模型,让模型逐渐学会特征和标签的关系。
- 推断 ---> 将训练好的模型预测无标签样本。
回归和分类
回归模型可以对连续值做出有用的预测,例子: 可以预测出广州的一栋房子的价格为多少?
分类模型可预测离散值。例子:可以预测这条短信是垃圾短信,还是非垃圾短信;也可以预测这张照片是猫,还是狗,还是老鼠?