关于numpy和pandas中关于nan的几个总结

其他 2020-01-23 12:31:00 阅读次数: 0

摘要

仅个人总结，不保证绝对正确，
仅服务个人。
本意是纪录文章最后的黑体字部分。

正文

在计算平均值等类似操作的时候numpy中的nan会参与计算，而pandas的nan不会。
np中的nan是float类型，所以在进行相关操作的时候需要将别的数据类型（int->float）进行转换，但是pandas中你不用考虑这个问题。
对比下面两片将nan替换为均值的代码就可以知道两者在处理nan数值的不同之处了：

代码1（numpy）：

import numpy as np
def replace_nan(t):
    for i in range(t.shape[1]): 
        t_col=t[:,i] 
        nan_num=np.count_nonzero(t_col != t_col)
        if nan_num !=0: 
            no_have_nan=t_col[t_col==t_col] 
            t_col[np.isnan(t_col)]=no_have_nan.mean()
    return t


t = np.arange(12).reshape((3,4)).astype("float")
t[1,2:] = np.nan
print(t)
replace_nan(t)
print(t)

代码1（pandas）：

In [64]: t2
Out[64]: 
    age      name      tel
0  32.0  xiaowang  10086.0
1   NaN  xiaohong  10000.0
2  22.0  xiaowang      NaN
In [67]: t2.fillna(t2.mean())
Out[67]:
    age      name      tel
0  32.0  xiaowang  10086.0
1  27.0  xiaohong  10000.0
2  22.0  xiaowang  10043.0

# 你也可以只处理age这一列
t2["age"]=t2["age"].fillna(t2["age"].mean())

另外

在爬虫中爬取数据的时候，如果有些字段没有数据，就不要这些字段添加数据，就让其空着（也就是xpath中的extract_first()），到时候在数据分析的时候就会自动将该字段转为Nan的。（经过测试发现（基于csv文件测试）：如果根本没有该字段，或者存储的时候存的是null，在读取的时候会自动转为nan的）
一般数据存储的时候会选择mongodb的原因之一是：mysql中是不允许没有字段的，即使什么没有也会显示NULL，但是mongodb是允许某些字段是不存在的。
处理数据为0的数据时一般可以：t[t==0]=np.nan(这是因为在计算均值的时候nan不会参加计算，但是0会)
如果有的缺失值是用?标记的话，那么可以用df[“xx”].str.replace("?",np.nan)来处理该数据。

如厮__

发布了55 篇原创文章 · 获赞 3 · 访问量 2737

私信关注

猜你喜欢

转载自blog.csdn.net/rusi__/article/details/103099785

关于numpy和pandas中关于nan的几个总结

pandas中关于nan的处理

pandas中关于DataFrame去掉重复行和NaN行

关于NaN和isNaN

math、numpy、pandas 的 NaN

关于“NAN”

关于NaN

关于Pandas的几个问题

关于几个设计模式的理解和总结

矩阵关于numpy中*和dot的区别

pandas中关于loc和iloc的用法

关于pandas.DataFrame.fillna 填充Nan失败的问题

Pandas和Numpy操作总结

关于numpy、pandas的使用介绍教程

numpy nan和inf

关于numpy 数组的知识总结

关于 Python 之 Numpy 的总结

关于 Python 之 Pandas 的总结

总结几个关于 jQuery 用法

几个关于房价的观点总结

关于缺失值NaN

关于seleium运用中几个问题的总结

关于Numpy中transpose()和stack()函数的解析！（Numpy.transpose()和Numpy.stack()）

math、numpy、pandas NaN 判断以及去除

关于未来世界，永生的几个方向和总结思考

Python快速转换numpy数组中Nan和Inf的方法

数据挖掘工具numpy（九）Nunpy中的nan和inf

Pandas:关于pandas中筛选的效率测试

如何判断numpy中的nan值（pandas怎么筛选某列有空值的行）

关于tensorflow、numpy和cvxpy

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)