我在博客上分享的都是在实际项目中遇到的棘手的并且解决的问题,整理出来当作知识总结,希望也能帮助到需要的人。
一、dataframe 的merge方法实现千万条数据的关联
这里的temp1是特征数据,有几千万条,temp2是样本标签,有几万条,现在需要拿出有标签的几万条样本的数据,做后续分析。
之前自己写循环做关联操作,每次循环到150万次左右程序就killed了,内存不足,算不出来。
尝试了好多方法,发现dataframe的merge方法简直不能更好用,只需一行代码就能实现,计算速度也是极快的。merge里面穿四个参数,分别是两张表的名称、关联字段的名称、和连接方式(left或right)。
temp1 = pd.read_csv('/Users/taorui02/Documents/test_data.txt')
temp2 = pd.read_csv('/Users/taorui02/Documents/test_sample.txt')
merge_data1 = pd.merge(temp2, temp1, on='id', how='left')
merge_data1.to_csv("test.csv", index=False, sep=',')
二、dataframe新增一行数据
dataframe用来做数据处理是十分方便的,可是要增加一行数据的方法我折腾了会儿才解决,因为它不同于修改、赋值。
如果是修改赋值,这样就可以:
1.先新建一个dataframe表
import pandas as pd
import numpy as np
df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['a', 'b', 'c', 'd'],
columns=['one', 'two', 'three', 'four'])
print(df2)
输出:
one two three four
a 0 1 2 3
b 4 5 6 7
c 8 9 10 11
d 12 13 14 15
2.修改一列
import pandas as pd
import numpy as np
df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['a', 'b', 'c', 'd'],
columns=['one', 'two', 'three', 'four'])
df2['one'] = 99999
print(df2)
输出:
one two three four
a 99999 1 2 3
b 99999 5 6 7
c 99999 9 10 11
d 99999 13 14 15
3. 修改特定值
import pandas as pd
import numpy as np
df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),
index=['a', 'b', 'c', 'd'],
columns=['one', 'two', 'three', 'four'])
df2['one'][0] = 99999
print(df2)
输出:
one two three four
a 99999 1 2 3
b 4 5 6 7
c 8 9 10 11
d 12 13 14 15
4. 使用索引赋值的方式不能实现新增一行,新增的话要用.loc[i]=一个list
这种方式。
# coding:utf-8
from pandas import *
df = DataFrame(columns=('lib', 'qty1', 'qty2')) # 生成空的pandas表
df.loc[0] = [1, 3, 4]
print df
输出:
lib qty1 qty2
0 1 3 4
三、dataframe里面的空值判断
在数据处理的过程中,空值是再常见不过的了。
之前没有用pandas的时候判断空值用 if value == '':
来判断,可是到了dataframe里面这种代码就失效了,用if value :
判断还是报错,最后发现pandas里面有自带的判断空值的方法。
当在文本文件中,空值为null,读入dataframe中,空值就变成了NaN,使用pd.isnull()
或者pd.notnull()
对一列进行空值判断,即if pd.notnull(value)
来判断。