机器学习入门课程（1）—— 相关概念

有监督学习(supervised learning) ：从给定的有标注的训练数据集中学习出一个函数（模型参数），当新的数据到来时可以根据这个函数预测结果。常见任务包括分类和回归。
无监督学习(unsupervised learning)：没有标注的训练数据集，需要根据样本间的统计规律对样本集进行分析，常见任务如聚类等。
半监督学习(semi-supervised learning) ：结合（少量的）标注训练数据和 （大量的）未标注数据 来进行数据的分类学习。两个基本假设：聚类假设（全局）/流形假设（局部）。
增强学习(Reinforcement Learning)：外部环境对输出只给出评价信息而非正确答案，学习机通过强化受奖励的动作来改善自身的性能。
多任务学习(Multi-task Learning)：把多个相关的任务放在一起同时学习。多个任务共享信息，相关联的多任务学习比单任务学习具备更好的泛化效果。

数据预处理：数据清洗、数据集成、数据采样
- 数据清洗：数据的完整性、合法性、唯一性、权威性、一致性。
- 数据采样：数据不平衡时并不能反映模型好坏，因此采用过采样（复制少数类的样本实例）、欠采样（随机消除占多数的类的样本，直到平衡）方法。
- 数据集拆分：训练、验证（辅助构建模型）、测试数据集。
特征工程：特征编码、特征选择、特征降维、规范化
- 特征编码：将不能直接用于算法计算的数据转化为数值形式进行编码，便于后期建模。
  
  方法：one-hot编码（N位状态寄存器对应N个状态），语义编码（词嵌入）。
- 特征选择方法：过滤法，包裹法，嵌入法。
- 特征降维：降低特征矩阵维度。主成分分析（PCA），线性判别分析（LDA）。
- 规范化方法：标准化（减去均值，除以方差），区间缩放，归一化
数据建模：回归问题、分类问题、聚类问题、其他问题
结果评估：拟合度量、查准率、查全率、F1值、PR曲线、ROC曲线

发布了76 篇原创文章 · 获赞 30 · 访问量 5833

私信关注