Python利用置信区间进行数据清理 - 代码天地

Python利用置信区间进行数据清理

其他 2018-08-06 03:49:25 阅读次数: 0

当我们利用python进行数据清理和筛选时，有时候一串数据的噪点很多，我们需要抽取一部分数据作为样本来进行分析，下面推荐一种基本的数据筛选方法，利用置信区间，例：样本满足正态分布。

置信区间：当给出某个估计值的95%置信区间为 [a, b] 时，可以理解为有95%的信心可以说说样本的平均值介于a到b之间，而发生错误的概率为5%。

计算方式：

第一步：计算样本 $\small (X_{1}, ..., X_{2}})$ 均值 $\small M=(\sum _{i=1}^{n}X_{i})/n$

第二步：计算样本标准差： $\small \sigma =\sqrt{1/n\sum_{i=1} ^{n}(X_{i}-M)^{2}}$

第三步：取90%置信区间时： $\small [M-1.645\sigma , M+1.645\sigma ]$

取95%置信区间时： $\small [M-1.96\sigma , M+1.96sigma ]$

取99%置信区间时： $\small [M-2.576sigma , M+2.576\sigma ]$

代码：

import pandas as pd
def confidenceinterval(data):#求置信区间
    data=pd.read_excel("文件位置")
    data=data["某列"]
    StandardDeviation_sum=0
#返回样本数量   
    Sizeofdata=len(data)
    data=np.array(data)
    print(data)
    Sumdata=sum(data)
#计算平均值
    Meanvalue=Sumdata/Sizeofdata
    #print(Meanvalue)
#计算标准差
    for index in data:
        StandardDeviation_sum=StandardDeviation_sum+(index-Meanvalue)**2    
    StandardDeviation_sum=StandardDeviation_sum/Sizeofdata    
    StandardDeviationOfData=StandardDeviation_sum**0.5
    #print(StandardDeviationOfData)
#计算置信区间  
    LowerLimitingValue=Meanvalue-1.645*StandardDeviationOfData
    UpperLimitingValue=Meanvalue+1.645*StandardDeviationOfData    
    return LowerLimitingValue, UpperLimitingValue

猜你喜欢

转载自blog.csdn.net/W_weiying/article/details/81127714

Python利用置信区间进行数据清理

Python画置信区间图

求置信区间

计算置信区间

95%置信区间

置信区间的理解

95% 置信区间

置信区间与置信水平

置信度与置信区间

Python求解正态分布置信区间

使用Python计算bootstrap置信区间

python实现参数估计-置信区间

Python实现置信区间（热门排序）

python绘制带置信区间的折线图

参数估计与置信区间

置信区间，统计量

统计学的置信区间

置信区间（confidence interval）

AUC的95%置信区间计算

95%置信区间计算-理解

MATLAB 离散数据点拟合曲线并且进行相关置信区间（默认95%）的绘制

R语言求单侧置信区间或双侧置信区间

置信区间置信水平边际误差

置信度和置信区间（转）

置信区间和置信水平

[转] R 置信区间、预测区间差别

Python金融系列第四篇：置信区间和假设检验

python中画带置信区间的拟合线几种绘制方式

Python 实现Z检验&置信区间的求解：自定义函数快捷调用

缺失数据构造置信区间：《Statistical Analysis with Missing Data》习题7.9

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)