机器学习中一些数学问题

目录

机器学习

误差

分类回归树CART(Classification and Regression Trees)

HMM和CRF

概率密度函数估计


机器学习

机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。

误差

训练误差是在训练记录上误分类样本比例;
泛化误差是模型在未知记录上的期望误差;

 一个好的模型不仅要能够很好地拟合训练数据,而且对未知样本也要能够准确地分类。
 一个好的分类模型必须具有低的训练误差和泛化误差。因为一个具有低训练误差的模型,其泛化误差可能比具有较高训练误差的模型高。(训练误差低,泛化误差高,称为过渡拟合)

分类回归树CART(Classification and Regression Trees)

目标变量是类别的 --- 分类树
目标变量是连续的 --- 回归树

HMM和CRF

共性:都常用来做序列标注的建模,像词性标注。
差异:HMM最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择;在每一节点都要进行归一化,所以只能找到局部的最优值,同时也带来了标记偏见的问题(label bias);CRF:选择上下文相关特性;不在每一个节点进行归一化,而是所有特征进行全局归一化,可以求得全局的最优值。

概率密度函数估计

概率密度函数估计分为两类:参数估计和非参数估计,参数估计主要两类:最大似然估计和贝叶斯估计。

参数估计:已知概率密度函数的形式,但其中部分或全部参数未知,概率密度函数估计问题就是用样本估计这些参数。

非参数估计:概率密度函数的形式未知,概率密度函数的形式不符合目前研究的任何分布模型。因此不能估计几个参数,而是

用样本把概率密度函数数值化地估计出来。

参数估计的基本概念:

统计量、参数空间、点估计、估计量和估计值、区间估计。

最大似然估计与贝叶斯估计根本区别:

最大似然估计是把待估计的参数当作未知但固定的量,要做的是根据观测数据估计这个量的取值。

贝叶斯估计则把待估计的参数本身也看作是随机变量,要做的是根据观测数据对参数的分布进行估计,除了观测数据外,还可以考虑参数的先验分布。

贝叶斯学习则是把贝叶斯估计的原理用于直接从数据对概率密度函数进行迭代估计。

误差:真实值与计算值之间差异

来源:

模型误差(抽象模型)

观测误差

方法误差(截断误差,求近似解方法)

舍入误差(机器字长)

绝对误差:近似值-精确值

X=x±c

c:绝对误差限

X:精确值

x:近似值

相对误差:绝对误差/精确值,(x-X)/X,由于X未知,(x-X)/X=(x-X)/x

相对误差限:c/|x|

从一个数的左边第一个非0数字起,到末位数字止,所有的数字都是这个数的有效数字。

有效数字=>相对误差限

相对误差限=>有效数字

函数的误差估计

猜你喜欢

转载自blog.csdn.net/weixin_41865104/article/details/113308085