01 机器学习之概述

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Song_Lynn/article/details/80015124

机器学习之概述

1.概述

机器学习是什么

  • 人工智能的一个重要学科的分支,一个多领域交叉学科
  • 一类数据驱动的方法,在数据上通过算法,总结模式、规律,从而应用在新的数据上
  • 研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构,使之不断改善自身
  • 广泛应用:互联网、生物、医疗、金融、能源、交通等等

2.基本概念

2.1 不同类型的问题

  • 分类问题(监督学习)

    根据数据样本上抽取出的特征,判定其属于有限个类别中的哪一个(类似选择题)

    离散个结果中做选择

    例子:

    • 垃圾邮件识别(1、垃圾邮件;2、正常邮件)
    • 文本情感褒贬分析(1、褒;2、贬)
    • 图像内容识别(1、喵星人;2、汪星人;3、人类;4、草泥马;5、都不是)
  • 回归问题(监督学习)

    根据数据样本上抽取出的特征,预测连续值结果(类似计算题)

    输出连续值结果

    例子:

    • 《芳华》票房值
    • 魔都房价具体值
    • 刘德华和吴彦祖的具体颜值得分
  • 聚类问题(无监督学习)

    根据数据样本上抽取出的特征,挖掘数据的关联模式

    例子:

    • 相似用户挖掘 / 社区发现
    • 新闻聚类
  • 强化问题

    研究如何基于环境而行都,以取得最大化的预期利益

    从环境到行为映射的学习

    例子:

    • 游戏(“吃鸡”)最高得分
    • 机器人完成任务

2.2 基本术语与概念

监督学习(supervised learning)

无监督学习(unsupervised learning)

区别:数据是否有标签

  • 数据
    这里写图片描述
  • 数据集(训练集、测试集)
  • 示例(instance)、样例(example)、样本(sample)
  • 属性(attribute)、特征(feature);属性值
  • 属性空间、样本空间、 输入空间
  • 特征向量(feature vector)
  • 标记空间、输出空间
  • 学习算法 learning algorithm

这里写图片描述

  • 模型,假设(hypothesis)
  • 未见样本(unseen instance)
  • 真相(ground-truth)
  • 学习器(learner)
  • 泛化(generalization)

2.3 工业界应用方向

  • 模式识别
  • 数据挖掘
  • 统计学习
  • 计算机视觉
  • 语音识别
  • 自然语言处理

3.基本流程与工作环节

这里写图片描述

3.1 数据驱动方法

数据 + 机器学习算法 = 预测模型

3.2 基本流程

1.数据预处理

数据决定模型效果上限,算法使得模型接近上限

  • 数据采样
  • 数据切分
  • 特征抽取:row data -> feature
  • 降维
  • 特征选择

2.模型学习

  • 模型选择
  • 模型训练
  • 交叉验证
  • 结果评估
  • 超参选择

3.模型评估

分类、回归、排序评估标准

4.模型上线

猜你喜欢

转载自blog.csdn.net/Song_Lynn/article/details/80015124