机器学习基础词汇|小白10mins入门|西瓜书笔记

基本概念:

以实物西瓜为例

  • 数据集(data set):(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),······

  • 样本(sample):(色泽=青绿;根蒂=蜷缩;敲声=浊响)

  • 特征(feature)or 属性(attribute):“色泽”,“根蒂”,“敲声”

  • 属性值(attribute value):“青绿”,“蜷缩”,“浊响”

  • 属性空间(attribute space)or 输入空间:以“色泽”,“根蒂”,“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。

  • 特征向量(feature vector):属性空间中的每个点对应着的一个坐标向量

以数学术语为例

  • 数据集: D = { x 1 , x 2 , . . . , x m } D=\{x_1, x_2,...,x_m\} ,表示包含m个示例的数据集
  • 属性:有 d d 个属性,则每个示例 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i=(x_{i1};x_{i2};...;x_{id}) d d 维样本空间 χ \chi 中的一个向量,即 x i χ x_i \in \chi
  • 属性值: x i j x_{ij} x i x_i 在第 j j 个属性上的取值
  • 维数(dimensionality): d d x i x_i 的维数

机器学习过程:

  • 第一步:找到或者逼近真相的规律

    • 训练(training):从数据中学得模型的过程,这个过程通过执行某个学习算法来完成
    • 训练数据(training data):训练过程中使用的数据
    • 训练样本(training sample):关于一个事件或对象的的每条记录
    • 训练集(training set):训练样本组成的集合
    • 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
    • 真相(ground-truth):潜在规律的自身,可理解为唯一规律
    • 学习器(learner):学习算法(有参数需要设置)在给定数据和参数空间上的实例化
  • 第二步:建立预测的模型

    • 预测(prediction):训练样本的“结果”信息

      e.g (色泽=青绿;根蒂=蜷缩;敲声=浊响) \to (好瓜)

      ​ ((色泽=青绿;根蒂=蜷缩;敲声=浊响), (好瓜))

    • 标记(label):示例中的(好瓜),

    • 样例(example):拥有了标记信息的示例

    • 标记空间(label space)or 输出空间:所有标记的集合

    • 数学语言: ( x i , y i ) (x_i,y_i) 表示第i个样例,其中 y i γ y_i \in \gamma 是示例 x i x_i 的标记, γ \gamma 是标记空间

  • 第三步:测试

    • 测试(training):学得模型后,用它进行预测的过程
    • 测试样本(training sample):被预测的样本
    • 过程:在学得模型 f f 后,对测试例 x x ,可得到其预测标记 y = f ( x ) y=f(x)

机器学习分类

  • 监督性学习:(supervised learning):代表类型有分类回归,有预测任务,即给定自变量 x x ,预测因变量 y y

    • 分类(classification):针对预测的是离散值,如“好瓜”与“坏瓜”
      • 二分类(binary classification):只涉及两个类别分类,其中一个为“正类”(positive class),另一个为“负类”(negative class),通常令 γ = { 1 , 1 } \gamma=\{-1,1\} 或者 γ = { 0 , 1 } \gamma=\{0,1\}
      • 多分类(multi-class classification):涉及多个类别分类,通常令 γ > 2 |\gamma|>2
      • 预测任务过程:通过对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } \{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} 进行学习,建立一个从输入空间 χ \chi 到输出空间 γ \gamma 的映射 f : χ γ f:\chi \to \gamma
    • 回归(regression):针对预测的是连续值,如西瓜成熟度0.95,0.37,0.21等,通常令 γ = R \gamma = R R R 为实数集
  • 非监督性学习:(unsupervised learning):代表类型有聚类

    • 聚类(clustering):将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇分别对应不同的潜在概念,例如“浅色瓜”,“深色瓜”,“本地瓜”,“外地瓜”等等。
    • 特点:聚类学习中,“浅色瓜”,“深色瓜”,“本地瓜”,“外地瓜”等概念事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息

机器学习目标

  • 模型泛化(generalization)能力:使得学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好,具有强泛化能力的模型能很好地适用于整个样本空间
  • 训练集通常只是样本空间的一个很小的采样,但我们仍然希望它很好地反映出样本空间的特性。
  • 通常假设样本空间中全体样本服从一个未知**“分布”(distribution) D D ,获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”**(independent and identically distributed,简称 i . i . d . i.i.d. )。一般,训练样本越多,得到的关于 D D 的信息越多,就越有可能通过学习获得具有强泛化能力的模型。
发布了37 篇原创文章 · 获赞 0 · 访问量 822

猜你喜欢

转载自blog.csdn.net/SanyHo/article/details/105069051