AI相关基础与数学知识
其他
2019-03-13 09:20:55
阅读次数: 0
(1)机器学习定义
- 根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。
(2)机器学习问题的表示
- 根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。
- 根据n个独立同分布观测样本确定预测函数f(x,w)。
- 在一组函数{f(x,w)}中求一个最优的函数f(x,w0)对依赖关系进行估计,使预测的期望风险最小。
1 AI相关基础与数学知识
(3)机器学习一般表示
- 学习的目的在于使期望风险最小化。由于可利用的信息只有样本,期望风险往往无法计算。
- 经验风险最小化归纳原则 (The Empirical Risk Minimization (ERM) Inductive Principle)
核心思想:用样本定义经验风险
定义损失函数:
定义经验风险最小化:
最小二乘法和最大似然法是两种比较可靠的求解方法
1 AI相关基础与数学知识
(4)过拟合
- 经验风险最小并不意谓着期望风险最小。
- 训练误差小并不总能导致好的预测效果。若对有限的样本来说学习能力过强,足以记住每个样本,此时经验风险很快就可以收敛到很小甚至零,但却根本无法保证它对未来样本能给出好的预测。此时模型可能发生过拟合。
- 结构风险最小化:奥卡姆剃刀原则
- 二者结合:损失函数中引入正则化
1 AI相关基础与数学知识
(5)三类基本的机器学习问题
模式分类问题:输出y是类别标号,两类情况下y={1,-1},预测函数称作指示函数(Indicator Function),损失函数定义见下式,使期望风险最小就是使错误率最小。
1 AI相关基础与数学知识
(6)三类基本的机器学习问题
回归问题:输出y是连续变量,它是x的函数,损失函数定义见下式:
1 AI相关基础与数学知识
(7)三类基本的机器学习问题
概率密度估计问题:根据训练样本确定x的概率分布p(x,w),则损失函数可定义为:
1 AI相关基础与数学知识
(8)统计学习的基本方法
有监督/无监督学习
- 有监督(Supervised):分类、回归
- 无监督(Unsupervised):概率密度估计、聚类、降维
- 半监督(Semi-supervised):EM、Co-training
其他学习方法
- 强化学习(Reinforcement Learning)
- 多任务学习(Multi-task learning)
1 AI相关基础与数学知识
(9)统计学习的基本方法
有监督/无监督学习
- 有监督(Supervised):分类、回归
- 无监督(Unsupervised):概率密度估计、聚类、降维
- 半监督(Semi-supervised):EM、Co-training
其他学习方法
- 强化学习(Reinforcement Learning)
- 多任务学习(Multi-task learning)
1 AI相关基础与数学知识
(10)与数据相关的概念
假如我们有一组天气数据,是来自全世界不同国家和地区的每日天气,内容包括最高温度、最低温度、平均湿度、风速之类的相关数据,例如数据的一部分是这样的
在这组数据中,我们将称A市、B市、C市等市以及其情况的总和称为数据集(data set)。表格中的每一行,也就是某城市和它的情况被称为一个样例(sample/instance)。表格中的每一列(不包括城市),例如最高温度、最低温度,被称为特征(feature/attribute),而每一列中的具体数值,例如36℃ 、28℃,被称为属性值(attribute value)。数据中也可能会有缺失数据(missing data),例如B市的某时刻风速,我们会将它视作缺失数据。
1 AI相关基础与数学知识
(11)与数据相关的概念
如果我们想预测城市的天气,例如是晴朗还是阴雨天,这些数据是不够的,除了特征以外,我们还需要每个城市的具体天气情况,也就是通常语境下的结果。在机器学习中,它会被称为标签(label),用于标记数据。
视具体情况,用来进行机器学习的一个数据集往往会被分为两个数据集——训练数据(training data)和测试数据(testing data)。 顾名思义,训练数据在机器学习的过程中使用,目的是找出一套机器学习的方法;而测试数据用于判断找出的方法是否足够有效。如果在训练的过程中需要确定方法的准确度,有时会将训练数据分成训练集(training set)和验证集(validation set)——验证集和测试数据不同的地方在于验证集在训练过程中使用,而测试数据事实上是在模型建立后才被使用的。
1 AI相关基础与数学知识
(12)混淆矩阵
针对预测值和真实值之间的关系,我们可以将样本分为四个部分,分别是:
真正例(True Positive,TP):预测值和真实值都为1
假正例(False Positive,FP):预测值为1,真实值为0
真负例(True Negative,TN):预测值与真实值都为0
假负例(False Negative,FN):预测值为0,真实值为1
衡量结果精度的有一些相关术语,首当其冲的是准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及F1值。准确率是预测和标签一致的样本在所有样本中所占的比例;精确率是你预测为正类的数据中,有多少确实是正类;召回率是所有正类的数据中,你预测为正类的数据有多少。这三个数据往往用来衡量一个二分类算法的优劣。
1 AI相关基础与数学知识
(1)距离的度量
距离度量的方法
- 什么是样本或变量之间的距离?
- 数据标准化可以使得变量的权重相同
- 相异性(Dissimilarity)是距离(Distance)的一般化表达
- 不同数据类型的相异性:
区间尺度变量(温度、日期)
二元变量(对称 / 非对称)
名义变量(分类变量)
有序变量(流量、时延)
混合。
2 数据关联算法
(1)距离的度量
距离度量的原则
2 数据关联算法
(1)距离的度量
2 数据关联算法
(1)距离的度量
2 数据关联算法
(1)距离的度量
要不要标准化?--cm
2 数据关联算法
(1)距离的度量
要不要标准化?--feet
2 数据关联算法
(1)距离的度量
要不要标准化?--标准化
2 数据关联算法
(1)距离的度量
要不要标准化?--属性未知
2 数据关联算法
(1)距离的度量
要不要标准化?--经纬度
2 数据关联算法
(1)距离的度量
要不要标准化?
如果变量没有标准化
标准化可以给每个变量相同的权重
也可以通过重新给权重赋值:
以下情况要标准化,
- 变量的量纲不同(千克,米,秒…)
- 你明确地想要每个变量的权重相同
如果所有变量的量纲一样就不要标准化
大部分情况:最好还是标准化
2 数据关联算法
(2)相异性度量
2 数据关联算法
(2)相异性度量
2 数据关联算法
(2)相异性度量
二元数据:简单匹配系数
2 数据关联算法
(2)相异性度量
二元数据:简单匹配系数
2 数据关联算法
(2)相异性度量
二元非对称数据:Jaccard 距离
2 数据关联算法
(2)相异性度量
有序变量:归一化排序
2 数据关联算法
(3)相关性度量
Person相关系数:是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。
2 数据关联算法
转载自blog.csdn.net/b0207191/article/details/88431986