拉格朗日

import pandas as pd
from scipy .interpolate import lagrange#导入拉格朗日插值函数

inputfile='../data/catering_sale.xls'
outputfile='../tmp/sales.xls'#输出路径数据

data=pd.read_excel(inputfile)
data[u'销量'][(data[u'销量']<400)|(data[u'销量']>5000)]=None#过滤异常值

#定义列向量插值函数
#s为列向量,n为被插值的位置,k为取值前后的数据个数,默认为5
def ployinterp_column(s,n,k=5):
    y=s[list(range(n-k,n))+list(range(n+1,n+1+k))]#取值(找出空值n的前后个5个值)
    y=y[y.notnull()]#剔除空值
    return lagrange(y.index,list(y))(n)#插值并返回插值结果

#逐个元素判断是否需要插值
for i in data.columns:
    for j in range(len(data)):
        if(data[i].isnull())[j]:#如果为空就插值
            data[i][j]=ployinterp_column(data[i],j)
            
data.to_excel(outputfile)#输出结果,写入文件

list() 方法用于将元组转换为列表。

range(5)列出从0到4,开头默认为0,步长默认为1

猜你喜欢

转载自blog.csdn.net/qq_38882117/article/details/81127115