(二) 机器学习基本概念

基本概念:训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归


概念学习:人类学习概念:鸟,飞机,狗,猫,计算机,盒子,车,房子,不断的区分实体特征从而学会了概念


定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数


  • 例子:学习 “享受运动” 这一概念:
    小明进行水上运动,是否享受运动取决于很多因素

 这里写图片描述

天气:晴,阴,雨
温度:暖,冷
度:普通,大
风力:强,弱
温:暖,冷
预报:一样,变化

享受运动:是,否


概念定义在实例(instance,即每一天各种因素的影响,即表格中的一行所有属性集合可以理解为实例)集合之上,这个集合表示为X。(X:所有可能的日子,每个日子的值由 天气,温度,湿度,风力,水温,预报6个属性表示。

  • 待学习的概念或目标函数成为目标概念(target concept), 记做c。
    c(x) = 1, 当享受运动时, c(x) = 0 当不享受运动时,c(x)也可叫做y
    x: 每一个实例
    X: 样例, 所有实例的集合
    学习目标(就是学习到这个映射函数,也就是上面所说的布尔函数):f: X -> Y

训练集(training set/data)/训练样例(training examples): 用来进行训练,也就是产生模型或者算法的数据集,例如,以上我们想通过学习以上数据集(假设有一百天的属性与是否享受运动的集合),来学习出,根据以上6个属性得到是否享受运动的这一概念函数,那么这一百天的实例集合就成为训练集


测试集(testing set/data)/测试样例 (testing examples):用来专门进行测试已经学习好的模型或者算法的数据集(比如我们一共有110天的实例,那么用前一百天作为训练集,得到生产模型,那么用这后10天的实例(假装不知道这十天是否享受运动只知道天气属性)和这个模型来预测,这十天小明是否享受运动,这十天就是测试样例


特征向量(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例(上面实例的天气属性的值)
标记(label): c(x), 实例类别的标记 (上面例子的是否享受运动的是和否)
正例(positive example)
反例(negative example)


例子:研究美国硅谷房价(标记为数值型)(回归)
影响房价的两个重要因素:面积(平方米),学区(评分1-10)

这里写图片描述


  • 分类 (classification): 目标标记为类别型数据(category)
  • 回归(regression): 目标标记为连续性数值 (continuous numeric value)

例子:研究肿瘤良性,恶性于尺寸,颜色的关系
特征值:肿瘤尺寸,颜色
标记:良性/恶性


  • 有监督学习(supervised learning): 训练集有类别标记(class label)
  • 无监督学习(unsupervised learning): 无类别标记(class label)
  • 半监督学习(semi-supervised learning):有类别标记的训练集 + 无标记的训练集

机器学习步骤框架

  1. 把数据拆分为训练集和测试集
  2. 用训练集和训练集的特征向量来训练算法
  3. 用学习来的算法运用在测试集上来评估算法 (可能要设计到调整参数(parameter tuning, 用验证集(validation set)来调参数,然后进行测试)

猜你喜欢

转载自blog.csdn.net/changerjjlee/article/details/80559348
今日推荐