python numpy中std()和pandas中std()的区别

其他 2020-01-29 11:47:18 阅读次数: 0

std()函数就是初高中学的标准差

计算得出的默认标准偏差类型在 numpy 的 .std() 和 pandas 的 .std() 函数之间是不同的。
默认情况下，numpy 计算的是总体标准偏差，ddof = 0。另一方面，pandas 计算的是样本标准偏差，ddof = 1。如果我们知道所有的分数，那么我们就有了总体——因此，要使用 pandas 进行归一化处理，我们需要将“ddof”设置为 0。

在统计学中，多年的经验总结出：

如是总体,标准差公式根号内除以 n，
如是样本,标准差公式根号内除以（n-1），
因为我们大量接触的是样本,所以普遍使用根号内除以（n-1)。
公式意义：所有数减去平均值,它的平方和除以数的个数（或个数减一),再把所得值开根号,就是1/2次方,得到的数就是这组数的标准差。

以上参考：https://blog.csdn.net/qq_38486203/article/details/84540260

numpy的scale就是 x-mean/std

import numpy as np

from sklearn import preprocessing

data = np.array([[3, -1.5, 2, -5.4], [0, 4, -0.3, 2.1], [1, 3.3, -1.9, -4.3]])

print(data.mean(axis=0))

print(data.std(axis=0))

data_standardized = preprocessing.scale(data)

print(data_standardized)

‘’‘以第一列3，0,1为例，其均值为1.333，方差=sqrt((power(3-1.33,2)+power(0-1.33,2)+power(1-1.33,2))/3)=1.247’则标准化为(3-1.333)/1.247=1.3363，大概就是这么一回事情‘’‘

以上参考：https://www.jianshu.com/p/ab84f1a467c7

一个代码小片段帮助理解

#标准差标准化
import pandas as pd

datafile='f:/data/7/7.2/zscoredata.xls'   #需要进行标准化的数据文件；
zscoredfile='f:/data/7/7.2/tmp/zscoreddata.xls'  #标准差化后的数据存储路径文件；

#标准化处理 min是均值 std是标准差
data=pd.read_excel(datafile)

#numpy的scale就是 x-mean/std
data=(data-data.mean(axis=0))/(data.std(axis=0))
#关于axis=0或者1:https://www.cnblogs.com/nyist-/p/7998326.html

data.columns=['z'+i for i in data.columns]  #表头重命名

data.to_excel(zscoredfile,index=False)

冽夫

发布了94 篇原创文章 · 获赞 20 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/helloworld0906/article/details/103214491

python numpy中std()和pandas中std()的区别

numpy和Pandas中std()函数的区别

python——numpy中 np.std( )的用法

Pandas 与 Numpy 中的std() var() 区别

Python numpy和Pandas中的axis解释

Python中numpy和pandas中axis浅谈

[Python] Numpy中array和asarray的区别

python中安装numpy，pandas和matplotlib模块

windows下在Python中安装numpy和pandas

Python中numpy库和pandas库的基本用法

注意numpy与pandas里std中的有偏和无偏

python 中列表和 numpy 中数组的区别

std::vector中resize()和reserve()区别

Python中numpy库中的ndarray与pandas库中的series和dataFrame之间的相互转换

Python的 numpy中 meshgrid 和 mgrid 的区别和使用

Python: pandas中iloc, loc和ix的区别和联系

Python杂谈 | (6) numpy中array()和asarray()的区别

Python3——numpy中mean和average的区别

python-numpy中size、shape和len的区别

Python与线性代数——Numpy中的matrix()和array()的区别

python中numpy的axis=0和axis=1的区别

python+numpy中矩阵的逆和伪逆的区别

[转载] Python杂谈 | (6) numpy中array()和asarray()的区别

在Python3 numpy中mean和average的区别详解

简述Python的Numpy,SciPy和Pandas,Matplotlib的区别

Python ,numpy,pandas, scipy,matplot,opencv中的读取和保存数据的方法

python中的numpy和pandas---机器学习实战第一篇KNN

Python杂记：numpy中，"*"与dot的区别

python pandas 中 loc & iloc 用法区别

Python安装numpy和pandas

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)