机器学习之概述

1.概述

分类问题（监督学习）

根据数据样本上抽取出的特征，判定其属于有限个类别中的哪一个（类似选择题）

离散个结果中做选择

例子：
- 垃圾邮件识别（1、垃圾邮件；2、正常邮件）
- 文本情感褒贬分析（1、褒；2、贬）
- 图像内容识别（1、喵星人；2、汪星人；3、人类；4、草泥马；5、都不是）
回归问题（监督学习）

根据数据样本上抽取出的特征，预测连续值结果（类似计算题）

输出连续值结果

例子：
- 《芳华》票房值
- 魔都房价具体值
- 刘德华和吴彦祖的具体颜值得分
聚类问题（无监督学习）

根据数据样本上抽取出的特征，挖掘数据的关联模式

例子：
- 相似用户挖掘 / 社区发现
- 新闻聚类
强化问题

研究如何基于环境而行都，以取得最大化的预期利益

从环境到行为映射的学习

例子：
- 游戏（“吃鸡”）最高得分
- 机器人完成任务

监督学习（supervised learning）

无监督学习（unsupervised learning）

区别：数据是否有标签

数据集（训练集、测试集）

示例（instance）、样例（example）、样本（sample）

属性（attribute）、特征（feature）；属性值

属性空间、样本空间、输入空间

特征向量（feature vector）

标记空间、输出空间

这里写图片描述

模型，假设（hypothesis）

未见样本（unseen instance）

真相（ground-truth）

学习器（learner）

泛化（generalization）

这里写图片描述

数据 + 机器学习算法 = 预测模型

1.数据预处理

数据决定模型效果上限，算法使得模型接近上限

2.模型学习

3.模型评估

分类、回归、排序评估标准

4.模型上线