模式识别 —— 第三章非参数估计

物联网 2023-04-02 12:45:09 阅读次数: 0

模式识别 —— 第三章非参数估计

文章目录

模式识别 —— 第三章非参数估计

概率密度的估计

我们以前在参数估计中都是先假设样本点的分布有一个概率密度函数形式，比如高斯分布，然后从样本中估计参数。但是，有可能样本点的分布根本不是高斯分布，那么我们的结果就错了。

本文提出的非参数法讲究不需要先假设样本服从一个什么分布，而是直接从样本中统计得到，比如频率分布直方图。

在这里插入图片描述
理论上，如果我们样本足够多，同时将频率分布直方图组距设置得特别小，组特别多，这就是在逼近样本点的真实概率密度函数。一般地，样本足够多的时候其可以表示出任意类型的分布！

概率
特征空间中一定区域内样本的比率 $\int_R {p(x)} \,{\rm d}x$
这里其实就是对概率密度函数某一区域求积分，得到的值就是概率值。

概率密度
在这里插入图片描述如图如果某区域内点足够的多，并且我们划分的区域足够的小。那么我们可以大致认为该区域是等概率密度的。因此概率就等于概率密度乘以体积，如下式子：其中 $n$ 是样本总数， $k$ 是某一区域内的样本点的个数
$\int_R {p(x)} \,{\rm d}x = \frac{k}{n} \approx p(x)V$

因此：
$\approx \frac{k/n}{V}$

在这里插入图片描述
这里其实就是说每个区域要小，点数要多，n远多于k

在这里插入图片描述

第一行是根据n算出体积后按照这个体积来看有多少个k落入其中
第二行是根据算出k后来改变V是的有k个样本落入其中

Parzen窗方法

在这里插入图片描述
这个窗函数对于落在窗口内则函数值为1，否则为0。这个窗口在一维是一个关于原点对称的线段，长度为1；在二维是一个关于原点中心对称的正方形，面积为1；在三维是一个关于原点中心对称的正方体，体积为1。

扫描二维码关注公众号，回复： 14577878 查看本文章

推广：
在这里插入图片描述
对于窗函数样本数和概率密度函数如下：

这里可以将 $h_n$ 理解为单位长度，即对于任意一个样本点 $x i$ ，只要满足向量 $x - x i$ 的某一个维度 $\leq \frac{h_n}{2}$ ，那么值为1（相当于计数器加1），这样可得到该区域的样本数。

在这里插入图片描述如图可知，当h取值小时，函数曲线偏向细长。当样本n足够多的时候，窗口函数即可拟合出概率密度函数。

在这里插入图片描述

选取的H越小则 $V_n$ 越小，统计的结果稳定性不够
选取的H越大则 $V_n$ 越大，统计的结果分别率太低

K近邻估计

这种方法是固定局部区域样本数k，体积V变化。

对于k值的选择，这里采用 $k_n = \sqrt{n}$

在这里插入图片描述
可见当k较小时，概率密度函数的曲线变化越剧烈。因为当k很小时，V很小且变化比较突兀。

在这里插入图片描述
可见当n与k都趋近于无穷的时候，概率密度函数的曲线拟合的较好。

K近邻分类器

最近邻 (1-NN) 规则：在统计模式识别中，可以采用最小距离分类器，它是计算待分类的样本到各个已知类别的中心（通常是训练集中同类样本的重心）的距离，将其划分到距它最近的类别中心，这可以看作是一种最近邻的分类规则。

在这里插入图片描述例如，左边部分的点我们都将其归为蓝色；右边部分的点我们都将其归为红色。

在这里插入图片描述
用此方法我们可以在样本点集中构建出上图。

在这里插入图片描述

K近邻的快速计算

k-近邻分类器原理简单，无需对样本集进行回归分析或者概率分布统计，实现起来十分方便。但是它有两个缺陷：

对于每一个待分类的样本，都必须计算到样本集中所有样本的距离，从而找出的 k 个近邻来完成分类，因此算法的计算量随着样本集的增大而增大；
样本集中的所有样本都必须被使用，这给算法带来了巨大的存储压力。为解决这两个问题，许多研究者对 k-近邻分类器进行了改进

有三种应对办法：

部分距离

其实就是就是在计算过程中发现其距离已经大于已有的最小距离就不再继续计算了。

预结构化
- 其实就是将一些点看成一个整体，和这个整体的中心距离进行计算能够快速排除一些很远的点群。
编辑

删除被同类样本（Voronoineighbors）包围的原型

非参数估计和参数估计有联系但有很大区别，两者都非常重要。前者假定有一个概率密度函数形式，后者可以处理具有任意概率分布形式的数据。

猜你喜欢

转载自blog.csdn.net/Deam_swan_goose/article/details/129385499

模式识别 —— 第三章非参数估计

模式识别 —— 第二章参数估计

统计学_第三章_参数估计

第三章工厂模式

参数估计（三）区间估计

第三章短语挖掘和实体识别

第三章非侵入的流量治理

阅读《JavaScript设计模式》第三章心得

ZMQ 第三章高级请求-应答模式

第三章 MVC模式\项目和约定

第三章高级请求-应答模式

第三章装饰者模式（待续）

第三章建造者设计模式

第三章Nosql的存储模式

第三章 Hadoop 运行模式(2)

第三章 Hadoop 运行模式(1)

第三章：垃圾回收器-参数总结

常用的 JVM 参数（第三章）

非参数估计

统计模式识别学习笔记（三）

（第三章 8 ）特权级——保护模式的特权级检查（DPL，RPL，CPL, 一致代码段，非一致代码段）

哈尔滨工业大学计算机学院-模式识别-课程总结（二）-概率密度函数的参数估计

《我的眼睛--图灵识别》第三章：基础：颜色识别

数理统计: 第三章统计决策和贝叶斯估计

参数估计方法和非参数估计方法

第三章识别与描述软件缺陷实践

（第三章）TF框架之实现验证码识别

知识图谱文献综述（第三章实体识别与链接）

第三章 LD3320语音识别模块的使用

第三章、Java设计模式-生成器模式（Builder）

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

周排行

010-题目：利用条件运算符的嵌套来完成此题：学习成绩>=90分的同学用A表示，60-89分之间的用B表示，60分以下的用C表示。

接口测试-工作心得记录八（使用locust库书写接口并发）

物理分页和逻辑分页

Hive建表语句详解--CREATE TABLE

爬虫学习----学习get和post请求

PDF生成类库

POJ 2139

前端路由基本原理

I/O多路转接之epoll

.NET开源项目 QuarkDoc 一款自带极简主义属性的文档管理系统

每日归档

更多

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)