Pandas学习笔记十——高性能的eval和query方法

高性能的pandas：eval()和query()

python数据科学生态环境的强大力量在Numpy和Pandas的基础之上，并通过直观的语法将基本操作转化为c语言：在Numpy里是向量化/广播运算，在pandas里是分组型的运算。虽然这些抽象功能可以简洁高效的解决很多问题，但是他们经常需要创建临时对象，这样会占用很大的计算时间和内存。

Pandas为了解决性能问题，引入了eval()和query()函数，他们可以让用户直接运行C语言速度的操作，不需要费力的配置中间数组，它们都依赖于Numexpr程序包。

import numpy as np
x = np.random.rand(1000000)
y = np.random.rand(1000000)
%timeit x+y
%timeit np.fromiter(xi+yi for xi, yi in zip(x,y))

输出结果：
1.83 ms ± 14.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
143 ms ± 242 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

对于下面的numpy的向量化运算，其优点很明显：想比于普通的python循环或者列表综合运行速度要快很多，但是对于下面的复合代数式问题的运算效率就比较低。

mask = (x>0.5) & (x<0.5)

#上式等价于于：
tmp1 = (x>0.5)
tmp2 = (y<0.5)
mask = tmp1 & tmp2

原因是，每段中间过程都需要显式的分配内存。如果x数组和y数组很大，这么运算将会占用大量的时间和内存。Numexpr程序库可以让你在不为中间过程分配全部内存的前提下，完成元素到元素的复合代数式运算。Pandas的eval()和query()工具就是基于Numexpr实现的。

用pandas.eval()实现高性能运算

pd.eval()支持的运算

1、算术运算

df1,df2,df3,df4,df5 = (pd.DataFrame(np.random.randint(0,1000,(100,3))),for i in range(5))
result = pd.eval('-df1 * df2 / (df3 + df4) -df5')

2、比较运算

result = pd.eval('df1 < df2 <= df3 != df4')

3、位运算

result = pd.eval('(df1<0.5) & (df2<0.5) | (df3<df4)')

5、对象属性和索引

result = pd.eval('df2.T[0] + df3.iloc[1]')

用DataFrame.eval()实现列间运算

由于pd.eval()是pandas的顶层函数,因此DataFrame有一个eval()方法可以做类似的运算. 使用eval()方法的好处是可以借助列名称进行运算.

result = pd.eval("(df.A + df.B) / (df.C -1)")

1、用DataFrame.eval()新增列

df.eval('D = (A+B) / c', inplace=True)

2、DataFrame.eval()使用局部变量

column_mean = df.mean(1)
result = df.eval('A + @column_mean')

DataFrame.query()方法

query()方法和eval()方法一样是基于DataFrame列的计算代数式。对于过滤的操作，可以使用query()方法。

result = df.query('A < @Cmean and B < @Cmean')