AI相关基础与数学知识

 

  • 数据关联算法

 

 

1)机器学习定义

  • 根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。

 

 

 

 

 

2)机器学习问题的表示

  • 根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。
  • 根据n个独立同分布观测样本确定预测函数f(x,w)。
  • 在一组函数{f(x,w)}中求一个最优的函数f(x,w0)对依赖关系进行估计,使预测的期望风险最小。

 

 

1 AI相关基础与数学知识

 

3)机器学习一般表示

  • 学习的目的在于使期望风险最小化。由于可利用的信息只有样本,期望风险往往无法计算。
  • 经验风险最小化归纳原则 (The Empirical Risk Minimization (ERM) Inductive Principle)

  核心思想:用样本定义经验风险

  定义损失函数:

 

       定义经验风险最小化:

 

 

       最小二乘法和最大似然法是两种比较可靠的求解方法

 

1 AI相关基础与数学知识

 

4)过拟合

  • 经验风险最小并不意谓着期望风险最小。
  • 训练误差小并不总能导致好的预测效果。若对有限的样本来说学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测。此时模型可能发生过拟合。
  • 结构风险最小化:奥卡姆剃刀原则
  • 二者结合:损失函数中引入正则化

 

1 AI相关基础与数学知识

 

5)三类基本的机器学习问题

模式分类问题:输出y是类别标号,两类情况下y={1,-1},预测函数称作指示函数(Indicator Function),损失函数定义见下式,使期望风险最小就是使错误率最小。

 

 

 

 

1 AI相关基础与数学知识

 

6)三类基本的机器学习问题

回归问题:输出y是连续变量,它是x的函数,损失函数定义见下式:

 

 

 

 

1 AI相关基础与数学知识

 

7)三类基本的机器学习问题

概率密度估计问题:根据训练样本确定x的概率分布p(x,w),则损失函数可定义为:

 

 

 

 

 

1 AI相关基础与数学知识

 

8)统计学习的基本方法

 

有监督/无监督学习

 

  • 有监督(Supervised):分类、回归
  • 无监督(Unsupervised):概率密度估计、聚类、降维
  • 半监督(Semi-supervised):EM、Co-training

 

其他学习方法

  • 强化学习(Reinforcement Learning)
  • 多任务学习(Multi-task learning)

 

 

 

 

1 AI相关基础与数学知识

 

9)统计学习的基本方法

 

有监督/无监督学习

 

  • 有监督(Supervised):分类、回归
  • 无监督(Unsupervised):概率密度估计、聚类、降维
  • 半监督(Semi-supervised):EM、Co-training

 

其他学习方法

  • 强化学习(Reinforcement Learning)
  • 多任务学习(Multi-task learning)

 

 

 

 

1 AI相关基础与数学知识

 

10)与数据相关的概念

 

假如我们有一组天气数据,是来自全世界不同国家和地区的每日天气,内容包括最高温度、最低温度、平均湿度、风速之类的相关数据,例如数据的一部分是这样的

 

 

 

 

 

在这组数据中,我们将称A市、B市、C市等市以及其情况的总和称为数据集(data set)。表格中的每一行,也就是某城市和它的情况被称为一个样例(sample/instance)。表格中的每一列(不包括城市),例如最高温度、最低温度,被称为特征(feature/attribute),而每一列中的具体数值,例如36℃ 、28℃,被称为属性值(attribute value)。数据中也可能会有缺失数据(missing data),例如B市的某时刻风速,我们会将它视作缺失数据。

 

1 AI相关基础与数学知识

 

11)与数据相关的概念

 

如果我们想预测城市的天气,例如是晴朗还是阴雨天,这些数据是不够的,除了特征以外,我们还需要每个城市的具体天气情况,也就是通常语境下的结果。在机器学习中,它会被称为标签(label),用于标记数据。

 

 

 

 

 

视具体情况,用来进行机器学习的一个数据集往往会被分为两个数据集——训练数据(training data)和测试数据(testing data)。 顾名思义,训练数据在机器学习的过程中使用,目的是找出一套机器学习的方法;而测试数据用于判断找出的方法是否足够有效。如果在训练的过程中需要确定方法的准确度,有时会将训练数据分成训练集(training set)和验证集(validation set)——验证集和测试数据不同的地方在于验证集在训练过程中使用,而测试数据事实上是在模型建立后才被使用的。

 

1 AI相关基础与数学知识

 

12)混淆矩阵

针对预测值和真实值之间的关系,我们可以将样本分为四个部分,分别是:

    真正例(True Positive,TP):预测值和真实值都为1

    假正例(False Positive,FP):预测值为1,真实值为0

    真负例(True Negative,TN):预测值与真实值都为0

    假负例(False Negative,FN):预测值为0,真实值为1

 

衡量结果精度的有一些相关术语,首当其冲的是准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及F1值。准确率是预测和标签一致的样本在所有样本中所占的比例;精确率是你预测为正类的数据中,有多少确实是正类;召回率是所有正类的数据中,你预测为正类的数据有多少。这三个数据往往用来衡量一个二分类算法的优劣。

1 AI相关基础与数学知识

 

1)距离的度量

       距离度量的方法

  • 什么是样本或变量之间的距离?
  • 数据标准化可以使得变量的权重相同
  • 相异性(Dissimilarity)是距离(Distance)的一般化表达
  • 不同数据类型的相异性:

     区间尺度变量(温度、日期)

      二元变量(对称 / 非对称)

     名义变量(分类变量)

     有序变量(流量、时延)

     混合。

2 数据关联算法

 

1)距离的度量

       距离度量的原则

2 数据关联算法

 

1)距离的度量

      

2 数据关联算法

 

1)距离的度量

      

2 数据关联算法

 

1)距离的度量

       要不要标准化?--cm

2 数据关联算法

 

1)距离的度量

       要不要标准化?--feet

2 数据关联算法

 

1)距离的度量

       要不要标准化?--标准化

2 数据关联算法

 

1)距离的度量

       要不要标准化?--属性未知

2 数据关联算法

 

1)距离的度量

       要不要标准化?--经纬度

2 数据关联算法

 

1)距离的度量

       要不要标准化?

 

          如果变量没有标准化

  • 值域更大的变量拥有的权重大
  • 距离依赖于标准化

        标准化可以给每个变量相同的权重

          也可以通过重新给权重赋值:

 

 

          以下情况要标准化,

  • 变量的量纲不同(千克,米,秒…)
  • 你明确地想要每个变量的权重相同

          如果所有变量的量纲一样就不要标准化

          大部分情况:最好还是标准化

 

2 数据关联算法

 

2)相异性度量

 

      

2 数据关联算法

 

2)相异性度量

 

      

2 数据关联算法

 

2)相异性度量

二元数据:简单匹配系数

      

2 数据关联算法

 

2)相异性度量

二元数据:简单匹配系数

      

2 数据关联算法

 

2)相异性度量

二元非对称数据:Jaccard 距离

      

2 数据关联算法

 

2)相异性度量

有序变量:归一化排序      

2 数据关联算法

 

3)相关性度量

Person相关系数:是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。

 

      

2 数据关联算法

 

猜你喜欢

转载自blog.csdn.net/b0207191/article/details/88431986