机器学习基础概念
1、机器学习的主要任务
- 分类:二分类、多分类(图像识别、数字识别等)、多标签分类(图像中目标检测)
注:复杂的问题也能转化为分类任务(如自动驾驶、下棋等),一些算法只能完成二分类任务,多分类可转换成二分类任务 - 回归(结果是一个连续的值,不是一个类别):值的预测
注:回归任务可以简化成分类任务(成绩的预测→成绩属于哪一类)
输出结果为某一数值则为回归问题,结果为某一类别则为分类问题
2、机器学习方法的分类
- 监督学习
- 非监督学习
- 半监督学习
- 增强学习
(1)监督学习(有标签)
- K近邻
- 线性回归和多项式回归
- 逻辑回归
- SVM(支持向量机)
- 决策树和随机森林
(2)非监督学习(无标签)
- 聚类
非监督学习意义:
①特征提取(去除不需要的特征)
②特征压缩(PCA):在尽量少的减少数据损失的情况下将高维特征向量压缩成低维特征向量,方便可视化(三维以下的数据)
③异常检测
通过非监督学习可以将无标签的数据集进行分类,数据集中误差很大的数据即为异常数据
(3)半监督学习(一部分有标签,一部分没有)
:注:先使用无监督学习对数据处理,之后用监督学习手段做模型训练和预测
(4)增强学习
算法为Agent,根据周围环境采取行动(action),行动过后得到环境的反馈(reward,奖励与惩罚),并得到下一步的状态(state),再根据反馈通过算法改变自己的行动。Agent在一次次循环之后逐渐增强智能。
3、机器学习的其他分类
- 在线学习和批量学习(离线学习)
- 参数学习和非参数学习
(1)批量学习
- 优点:简单
- 问题:无法根据环境的变化而变化
- 解决:重新批量学习
- 缺点:运算量大,环境变化快的时候无法实现
(2)在线学习
将输入样例输入模型后得到的结果和输入样例本来的正确结果得到差异并同时输入到算法中,不断更新。
例:股市里面预测一分钟后的股价,在一分钟后得到了正确的股价,将两种数据输入给算法进行学习,不断往复训练
- 优点:及时反应新的环境变化
- 问题:新的不正常的数据会带来不好的影响
- 解决:加强对数据的监控(异常数据检测)
- 其他:适用于数据量大,无法批量学习的环境
(3)参数学习
将数据输入到模型后得到想要的参数(公式中的参数),得到参数后数据就没有用了,当有新的数据来的时候带入公式中即可得到预测的结果。如线性回归 模型
(4)非参数学习
- 不对模型进行假设,之前喂给算法的数据也要参与预测
- 非参数学习不是没参数,而是不对参数进行学习