机器学习入门课程(1)—— 相关概念

一 机器学习的分类

  • 有监督学习(supervised learning) :从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类回归
  • 无监督学习(unsupervised learning)没有标注的训练数据集,需要根据样本间的统计规律对样本集进行分析,常见任务如聚类等。
  • 半监督学习(semi-supervised learning) :结合(少量的)标注训练数据和 (大量的)未标注数据 来进行数据的分类学习。两个基本假设:聚类假设(全局)/流形假设(局部)。
  • 增强学习(Reinforcement Learning):外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能。
  • 多任务学习(Multi-task Learning):把多个相关的任务放在一起同时学习。多个任务共享信息,相关联的多任务学习比单任务学习具备更好的泛化效果。

二 机器学习面临的难题与挑战

  • 数据稀疏性;
  • 高数量和高质量标注数据需求;
  • 冷启动问题:产品初期的数据不足;
  • 泛化能力问题:不全面不均衡;
  • 模型抽象、模型评估和寻找最优解困难;
  • 容量、速度、在线学习(不断更新)

三 机器学习的过程

  • 数据预处理:数据清洗、数据集成、数据采样
    • 数据清洗:数据的完整性、合法性、唯一性、权威性、一致性。
    • 数据采样:数据不平衡时并不能反映模型好坏,因此采用过采样(复制少数类的样本实例)、欠采样(随机消除占多数的类的样本,直到平衡)方法。
    • 数据集拆分:训练、验证(辅助构建模型)、测试数据集。
  • 特征工程:特征编码、特征选择、特征降维、规范化
    • 特征编码:将不能直接用于算法计算的数据转化为数值形式进行编码,便于后期建模。

      方法:one-hot编码(N位状态寄存器对应N个状态),语义编码(词嵌入)。

    • 特征选择方法:过滤法,包裹法,嵌入法。

    • 特征降维:降低特征矩阵维度。主成分分析(PCA),线性判别分析(LDA)。

    • 规范化方法:标准化(减去均值,除以方差),区间缩放,归一化

  • 数据建模:回归问题、分类问题、聚类问题、其他问题
  • 结果评估:拟合度量、查准率、查全率、F1值、PR曲线、ROC曲线

四 机器学习方法分类

  • 分类问题:决策树、贝叶斯、支持向量机、逻辑回归、集成学习
  • 回归问题:线性回归、岭回归、Lasso回归
  • 聚类问题:K-means、高斯混合聚类、密度聚类、层次聚类、谱聚类
  • 其他问题:隐马尔可夫模型、LDA主题模型,条件随机场,神经网络深度学习
发布了76 篇原创文章 · 获赞 30 · 访问量 5833

猜你喜欢

转载自blog.csdn.net/weixin_45926367/article/details/104794009