如何判断一维数据集服从何种分布 - 代码天地

如何判断一维数据集服从何种分布

其他 2020-03-21 10:32:08 阅读次数: 0

KL散度

KL 散度是一种衡量两个概率分布的匹配程度的指标，两个分布差异越大，KL散度越大。

定义：

其中 p(x) 是真实分布，q(x)是目标分布（建模目标分布），如果两个分布完全匹配，那么

第一组：数据集为采集100个人的年龄，为以下表格所示，我们使用KL散度去研究最符合的分布类型。

age	0	1	2	3	4	5	6	7	8	9	10	总数
count	3	6	7	11	13	18	15	11	7	5	4	100

尝试1：使用均匀分布建立模型

可视化为：黄色的为建立的目标均匀分布模型，与蓝色真实分布的对比。

尝试2：使用高斯分布建立模型

可视化为：（红色虚线是相同 $\sigma$ 与 $\mu$ 拟合的一条正态分布曲线，蓝色条形图为概率密度）：

计算分析：

如何判断真实分布更接近均匀分布还是高斯分布，用肉眼看是很不准确的，用KL散度来衡量真实分布去匹配目标分布所损失的信息量。所以能够将模型量化去比较从而判断出接近哪种分布。

1、计算与均匀分布的KL散度：

import numpy as np
import math
count=np.array([3,6,7,11,13,18,15,11,7,5,4])
count_rate=count/100
balance_rate=1/11
sum=0
for i in range(11):
    sum+=count_rate[i]*math.log(count_rate[i]/balance_rate)
print(sum)

计算结果为：0.12899493763053263

2、计算与高斯分布的KL散度：


def gaosi(x):
    mu=5.03
    sigma=2.4349743325135895
    t1=1/(sigma*math.sqrt(2*math.pi))
    t2=((x-mu)**2)/(2*sigma*sigma)
    return math.exp(-1*t2)*t1

count=np.array([3,6,7,11,13,18,15,11,7,5,4])
count_rate=count/100

sum=0
for i in range(11):
    sum+=count_rate[i]*math.log(count_rate[i]/gaosi(i))
print(sum)

计算结果为：0.03997441345364968

结论：

在只考虑均匀分布模型与高斯分布模型的情况下，用本身去拟合目标模型时，匹配高斯分布所损失的信息量最少，计算发现该数据集的分布更符合高斯分布。

Cheney－渣渣杰

发布了44 篇原创文章 · 获赞 72 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/cj151525/article/details/97611446

如何判断一维数据集服从何种分布

判断数据是否服从均匀分布

检验数据集是否服从正态分布

判断数据是否服从某一分布（二）——简单易用fitdistrplus包（转发）

数学建模-判断数据是否服从正态分布

js判断页面从何种浏览器打开

数据是否服从正态分布

在Python中产生n个服从一维高斯分布的随机数，绘制该数据的直方图和概率密度函数

numpy生成服从特定分布（制定分布）的数据

在Python中产生n个服从二维高斯分布的随机数，绘制该数据的散布图和等密度点分布轨迹

如何判断当前使用的是何种浏览器？

正态分布具有很多好的性质，很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办？

如何判断数据是否符合正态分布

Python如何生成服从多元正态分布的随机变量？

python假设检验实战，是否服从正态分布，异常数据，相关性

python正态性检验：检验数据是否服从正态分布

（转）使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布

产生服从特定分布的随机数

检查一段文字是何种语言-通过谷歌langdetect进行判断

检查一段文字是何种语言以及编码-通过python自带的chardet进行判断

R语言实战--随机产生服从不同分布函数的数据（正态分布，泊松分布等），并将数据写入数据框保存到硬盘

sas 判断数据集是否存在及如何用sas代码关闭已打开的数据集

基于深度学习的三维重建（一）：三维重建简介、patchmatchNet环境部署、用colmap如何测试自己的数据集

MATLAB一维数据分布情况（稳定程度））

如何解决训练集、测试集分布不一致的问题

样本均值服从的分布 2018-8-28

服从正态分布的样本似然估计的期望和方差

Matlab 生成服从各种分布的随机数函数

数据中心从何而来？华为云学院带你一探究竟！

一维数组大小的判断

今日推荐

周排行

【转】mongodb中删除数组内嵌对象文档

php数字金额转换成中文大写显示

枫神之路--Java 的继承机制

四、Spring中使用@Conditional按照条件注册Bean

tomcat中直接使用第3放jar包

进程的创建fork vs vfork

结构体和组合体

“无任何网络提供程序接受指定的网络路径”的解决办法

webpack配置vue项目引入和部分引入

Oracle在不同windows系统中的迁移

每日归档

更多

2024-06-14(0)

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)