python每日一记5

1、检测和处理缺失值
pandas 提供了isnull 识别缺失值,notnull 识别非缺失值,dataframe.isnull() 返回布尔值,是缺失值则返回true,反之返回false。
再结合sum()函数就可以得出每列的缺失值得个数。
2、删除缺失值
按理说我们可以根据上边的缺失值检测的布尔值结果,再利用筛选得到非缺失值得行。
pandas提供了更加直接的方法,直接用dropna,删除缺失值得行或者列,axis=0删除行,=1删除列。
其他参数包括how、subset、inplace。
3、替换缺失值
删除缺失值很有可能使得数据失真,因此可以用fillna填充缺失值,其中value是用来填充的值,method=bfill表示用下一个非缺失值填充,ffill表示用上一个缺失值填充。
4、插值法
替换确实值也会造成数据的变形,因此最好的办法是插值法进行缺失值得填充,而最为常用的就是拉格朗日的插值法。
from scipy.interpolate import lagrange
L1=lagrange(X,Y1)
L2=lagrange(X,Y2)
L1(X2)
L2(X2)
表示当自变量为X2时Y1和Y2分别为多少。
其实就是类似于回归的求解。
问题是如何大规模的求解缺失值?有知道的小伙伴可以留言。

猜你喜欢

转载自blog.csdn.net/weixin_44663675/article/details/87886022