全书章节
0101 绪论基本概念
1.1 引言
机器学习解决了一个什么问题?
- 通过计算的手段,利用经验来改善系统自身的性能
- 有了数据
- 通过某种学习算法
- 得到模型
- 进行预测
1.2 基本术语
有了数据
- 数据集,例如100个西瓜
- 样本,例如1个西瓜
- 特征向量
特征向量张成了样本空间
如果特征向量有颜色、大小、敲起来的振幅,那么维度就是三维,样本空间就是三维坐标系那样的 - 属性,特征向量中的一个,例如颜色
通过某种学习算法
- 从数据中学得模型的过程称为学习或训练,这个过程通过执行某个学习算法来完成
得到模型
有监督学习 | 无监督学习 |
---|---|
训练数据有标记 ,有正确答案 | 训练数据无标记,无明确答案 |
包含分类和回归 | 包含聚类 |
-
分类:欲预测的是离散值,如“好瓜”,“坏瓜”
- 二分类:只涉及2个类别——正类和负类,例如判断一个瓜熟不熟,该不该摘
- 多分类:结果涉及多个类别,例如有黑美人、小地雷、特小凤3种西瓜,买哪种
-
回归:欲预测的是连续值,如西瓜甜度0.95、0.37
- 也可以根据往年西瓜价格走势,预测明年的各个时间段西瓜的价格
- 也可以根据往年西瓜价格走势,预测明年的各个时间段西瓜的价格
-
聚类:我们不知道要分几类,机器自己分
- 每个组称为“簇”(cluster)
进行预测
- 测试:学的模型后,使用其进行预测的过程
- 测试样本:被预测的样本
- 泛化能力:学的模型适用于新样本的能力。具有强泛化能力的模型能很好地适用于真个样本空间
0102 假设空间归纳偏好
1.3 假设空间
科学推理的能力
- 归纳:特殊到一般
- 演绎:一般到特殊
1.4 归纳偏好
模型越简单,越能体现本质
就像数学公式一样