AI相关基础与数学知识 - 代码天地

AI相关基础与数学知识

其他 2019-03-13 09:20:55 阅读次数: 0

数据关联算法

（1）机器学习定义

根据给定的训练样本求对某系统输入输出之间依赖关系的估计，使它能够对未知输出作出尽可能准确的预测。

（2）机器学习问题的表示

根据给定的训练样本求对某系统输入输出之间依赖关系的估计，使它能够对未知输出作出尽可能准确的预测。
根据n个独立同分布观测样本确定预测函数f(x,w)。
在一组函数{f(x,w)}中求一个最优的函数f(x,w0)对依赖关系进行估计，使预测的期望风险最小。

1 AI相关基础与数学知识

（3）机器学习一般表示

学习的目的在于使期望风险最小化。由于可利用的信息只有样本，期望风险往往无法计算。
经验风险最小化归纳原则 (The Empirical Risk Minimization (ERM) Inductive Principle)

核心思想：用样本定义经验风险

定义损失函数：

定义经验风险最小化：

最小二乘法和最大似然法是两种比较可靠的求解方法

1 AI相关基础与数学知识

（4）过拟合

经验风险最小并不意谓着期望风险最小。
训练误差小并不总能导致好的预测效果。若对有限的样本来说学习能力过强，足以记住每个样本，此时经验风险很快就可以收敛到很小甚至零，但却根本无法保证它对未来样本能给出好的预测。此时模型可能发生过拟合。
结构风险最小化：奥卡姆剃刀原则
二者结合：损失函数中引入正则化

1 AI相关基础与数学知识

（5）三类基本的机器学习问题

模式分类问题：输出y是类别标号，两类情况下y={1,-1}，预测函数称作指示函数(Indicator Function)，损失函数定义见下式，使期望风险最小就是使错误率最小。

1 AI相关基础与数学知识

（6）三类基本的机器学习问题

回归问题：输出y是连续变量，它是x的函数，损失函数定义见下式:

1 AI相关基础与数学知识

（7）三类基本的机器学习问题

概率密度估计问题：根据训练样本确定x的概率分布p(x,w)，则损失函数可定义为:

1 AI相关基础与数学知识

（8）统计学习的基本方法

有监督/无监督学习

有监督(Supervised)：分类、回归
无监督(Unsupervised)：概率密度估计、聚类、降维
半监督(Semi-supervised)：EM、Co-training

其他学习方法

强化学习(Reinforcement Learning)
多任务学习(Multi-task learning)

1 AI相关基础与数学知识

（9）统计学习的基本方法

有监督/无监督学习

有监督(Supervised)：分类、回归
无监督(Unsupervised)：概率密度估计、聚类、降维
半监督(Semi-supervised)：EM、Co-training

其他学习方法

强化学习(Reinforcement Learning)
多任务学习(Multi-task learning)

1 AI相关基础与数学知识

（10）与数据相关的概念

假如我们有一组天气数据，是来自全世界不同国家和地区的每日天气，内容包括最高温度、最低温度、平均湿度、风速之类的相关数据，例如数据的一部分是这样的

在这组数据中，我们将称A市、B市、C市等市以及其情况的总和称为数据集（data set）。表格中的每一行，也就是某城市和它的情况被称为一个样例（sample/instance）。表格中的每一列（不包括城市），例如最高温度、最低温度，被称为特征（feature/attribute），而每一列中的具体数值，例如36℃ 、28℃，被称为属性值（attribute value）。数据中也可能会有缺失数据（missing data），例如B市的某时刻风速，我们会将它视作缺失数据。

1 AI相关基础与数学知识

（11）与数据相关的概念

如果我们想预测城市的天气，例如是晴朗还是阴雨天，这些数据是不够的，除了特征以外，我们还需要每个城市的具体天气情况，也就是通常语境下的结果。在机器学习中，它会被称为标签（label），用于标记数据。

视具体情况，用来进行机器学习的一个数据集往往会被分为两个数据集——训练数据（training data）和测试数据（testing data）。顾名思义，训练数据在机器学习的过程中使用，目的是找出一套机器学习的方法；而测试数据用于判断找出的方法是否足够有效。如果在训练的过程中需要确定方法的准确度，有时会将训练数据分成训练集（training set）和验证集（validation set）——验证集和测试数据不同的地方在于验证集在训练过程中使用，而测试数据事实上是在模型建立后才被使用的。

1 AI相关基础与数学知识

（12）混淆矩阵

针对预测值和真实值之间的关系，我们可以将样本分为四个部分，分别是：

真正例（True Positive，TP）：预测值和真实值都为1

假正例（False Positive，FP）：预测值为1，真实值为0

真负例（True Negative，TN）:预测值与真实值都为0

假负例（False Negative，FN）：预测值为0，真实值为1

衡量结果精度的有一些相关术语，首当其冲的是准确率（Accuracy）、精确率（Precision）、召回率（Recall）以及F1值。准确率是预测和标签一致的样本在所有样本中所占的比例；精确率是你预测为正类的数据中，有多少确实是正类；召回率是所有正类的数据中，你预测为正类的数据有多少。这三个数据往往用来衡量一个二分类算法的优劣。

1 AI相关基础与数学知识

（1）距离的度量

距离度量的方法

什么是样本或变量之间的距离？
数据标准化可以使得变量的权重相同
相异性(Dissimilarity)是距离(Distance)的一般化表达
不同数据类型的相异性：

区间尺度变量（温度、日期）

二元变量（对称 / 非对称）

名义变量（分类变量）

有序变量（流量、时延）

混合。

2 数据关联算法

（1）距离的度量

距离度量的原则

2 数据关联算法

（1）距离的度量

2 数据关联算法

（1）距离的度量

2 数据关联算法

（1）距离的度量

要不要标准化？--cm

2 数据关联算法

（1）距离的度量

要不要标准化？--feet

2 数据关联算法

（1）距离的度量

要不要标准化？--标准化

2 数据关联算法

（1）距离的度量

要不要标准化？--属性未知

2 数据关联算法

（1）距离的度量

要不要标准化？--经纬度

2 数据关联算法

（1）距离的度量

要不要标准化？

如果变量没有标准化

值域更大的变量拥有的权重大
距离依赖于标准化

标准化可以给每个变量相同的权重

也可以通过重新给权重赋值：

以下情况要标准化，

变量的量纲不同（千克，米，秒…）
你明确地想要每个变量的权重相同

如果所有变量的量纲一样就不要标准化

大部分情况：最好还是标准化

2 数据关联算法

（2）相异性度量

2 数据关联算法

（2）相异性度量

2 数据关联算法

（2）相异性度量

二元数据：简单匹配系数

2 数据关联算法

（2）相异性度量

二元数据：简单匹配系数

2 数据关联算法

（2）相异性度量

二元非对称数据：Jaccard 距离

2 数据关联算法

（2）相异性度量

有序变量：归一化排序

2 数据关联算法

（3）相关性度量

Person相关系数：是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示，其中n为样本量，分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。

2 数据关联算法

猜你喜欢

转载自blog.csdn.net/b0207191/article/details/88431986

AI相关基础与数学知识

AI相关数学知识

基础数学知识

基础数学知识·质数

基础数学知识（笔记）

AI—常用数学知识总结

机器学习相关数学知识

Python之基础数学知识

算法基础-数学知识-质数、约数

【AI_数学知识】概率论

机器学习数学篇—基础数学知识清单

必备数学知识

数学知识总结

数学知识（一）

数学知识

Unity数学知识

数学知识（acm）

数学知识复习

数学知识积累

数学知识目录

数学知识1

数学知识～

数学知识(三)

数学知识(二)

数学知识(一)

Unity Shader相关的数学知识( 六）向量矩阵的运算

Unity Shader相关的数学知识( 七）矩阵与空间变换

3D相关的简单数学知识

算法数学知识整理[超基础]

机器学习---优化基础数学知识点总结

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)