数据处理日常方法小结

文章目录

1.numpy 统计数组的值出现次数


import numpy as np
from collections import Counter
 
data = np.array([1.1,1.1,1.1,2,3,5,4,4,4,5])
 
# 方法一
print('Counter(data)\n',Counter(data)) # 调用Counter函数
print('==========')
 
# 方法二
print('np.unique(data)\n',np.unique(data)) # unique返回的是已排序数组
 
for i in np.unique(data):
	print(np.sum(data==i)) # 对照unique数组，依次统计每个元素出现的次数
 
## np.unique(data,return_counts=True) 能直接返回unique的结果，也能返回统计结果
## 效果：(array([1.1, 2. , 3. , 4. , 5. ]), array([3, 1, 1, 3, 2], dtype=int64))

2.利用pandas中修改列名

import pandas as pd  

df1=pd.DataFrame({
    
    'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]})
print(df1)

即暴力修改列名，重新命名列名，注意{ }。

方法二，利用rename修改

使用’inplace’参数的df1结果，修改df1列名成功，可以任意指定修改的列名

df1.rename(columns={
    
    'a':'A','b':'B'},inplace=True) 
print('method2_inplace:\n',df1)

3.使用pandas中的to_csv将数据写入csv格式的文件

#注意：index=None ：表示的是去除列索引
#如果你想追加文件的话：加上参数 mode='a'
如：
df1.to_csv('Result1.csv',index=None,mode='a')

4.关于字典操作

查看字典前几项

一：只想看看元素。如果字典很长，只想看前5个，可以先变成list，再取索引来看。利用了字典的items方法。

a={‘the’: 958035, ‘of’: 536684, ‘and’: 375233, ‘one’: 371796, ‘in’: 335503, ‘a’: 292250, ‘to’: 285093, ‘zero’: 235406, ‘nine’: 224705}

print(list(vocab.items())[:5]) # 先items取元素，再转list，再切片取前5，最后print输出
输出为[(‘the’, 958035), (‘of’, 536684), (‘and’, 375233), (‘one’, 371796), (‘in’, 335503)]

二、保持原来字典样式，取前5个元素。

a={
    
    'the': 958035, 'of': 536684, 'and': 375233, 'one': 371796, 'in': 335503, 'a': 292250,
'to': 285093, 'zero': 235406, 'nine': 224705}
new_a = {
    
    }
for i,(k,v) in enumerate(a.items()):
new_a[k]=v
if i==4:
print(new_a)
break

输出：{‘the’: 958035, ‘of’: 536684, ‘and’: 375233, ‘one’: 371796, ‘in’: 335503}

计算字典里面有多少个key

print(len(dict.keys()))