一 机器学习的分类
- 有监督学习(supervised learning) :从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类和回归。
- 无监督学习(unsupervised learning):没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析,常见任务如聚类等。
- 半监督学习(semi-supervised learning) :结合(少量的)标注训练数据和 (大量的)未标注数据 来进行数据的分类学习。两个基本假设:聚类假设(全局)/流形假设(局部)。
- 增强学习(Reinforcement Learning):外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能。
- 多任务学习(Multi-task Learning):把多个相关的任务放在一起同时学习。多个任务共享信息,相关联的多任务学习比单任务学习具备更好的泛化效果。
二 机器学习面临的难题与挑战
- 数据稀疏性;
- 高数量和高质量标注数据需求;
- 冷启动问题:产品初期的数据不足;
- 泛化能力问题:不全面不均衡;
- 模型抽象、模型评估和寻找最优解困难;
- 容量、速度、在线学习(不断更新)
三 机器学习的过程
-
数据预处理:数据清洗、数据集成、数据采样
-
- 数据清洗:数据的完整性、合法性、唯一性、权威性、一致性。
- 数据采样:数据不平衡时并不能反映模型好坏,因此采用过采样(复制少数类的样本实例)、欠采样(随机消除占多数的类的样本,直到平衡)方法。
- 数据集拆分:训练、验证(辅助构建模型)、测试数据集。
-
特征工程:特征编码、特征选择、特征降维、规范化
-
特征编码:将不能直接用于算法计算的数据转化为数值形式进行编码,便于后期建模。
方法:one-hot编码(N位状态寄存器对应N个状态),语义编码(词嵌入)。
-
特征选择方法:过滤法,包裹法,嵌入法。
-
特征降维:降低特征矩阵维度。主成分分析(PCA),线性判别分析(LDA)。
-
规范化方法:标准化(减去均值,除以方差),区间缩放,归一化
-
-
数据建模:回归问题、分类问题、聚类问题、其他问题
-
结果评估:拟合度量、查准率、查全率、F1值、PR曲线、ROC曲线
四 机器学习方法分类
- 分类问题:决策树、贝叶斯、支持向量机、逻辑回归、集成学习
- 回归问题:线性回归、岭回归、Lasso回归
- 聚类问题:K-means、高斯混合聚类、密度聚类、层次聚类、谱聚类
- 其他问题:隐马尔可夫模型、LDA主题模型,条件随机场,神经网络,深度学习