pandas 整理

df = pd.read_csv(‘文件名’,header = 0)

df.shape   查看文件的行数和列数

df.head(5)  查看文件的前五行

df.drop([列名],axis = 1) 或者 df.drop([列名], 1)

df.drop('c',inplace=True) inplace = True的时候会将原数据也修改

df.列名.unique() 选出这一列的不重复项有哪些

df['diagnosis'] =df['diagnosis'].map({'M' : 0, 'B' : 1}) diagnosis为一列,map中放置一个字典,将一个列中的数据进行重命名

list(df.columns[ : ])取出df的列名

apply函数可以对DataFrame对象进行操作,既可以作用于一行或者一列的元素,也可以作用于单个元素。

df.apply(f) 默认axis为0

df.apply(f,axis=1)

format = lambda x:'%.2f' % x    df.applymap(format)  来对数据进行格式的限制

df.sort_values(by=['a','b'])

df.describe() 可以显示出每一列的均值等信息

df.fillna({1:0.5,2:-1})第一列的空值换为0.5 第二列的空值换位-1

numpy的设计目的是处理大数据,不可能一直复制数据,直接在原数据上进行操作 如果想得到ndarray切片的一份副本而非视图,需要显示地进行复制,arr[5:8].copy()

pd.read_csv('ex2.csv',names=['a', 'b', 'c', 'd', 'message'])将列重命名


读取文件

withopen('examples/ex7.csv') as f:

lines = list(csv.reader(f))

header, values =lines[0], lines[1:]

读取json文件

import json

result =json.loads(obj)

{'name': 'Wes',

 'pet':None,

 'places_lived': ['United States', 'Spain','Germany'],

 'siblings': [{'age': 30, 'name': 'Scott','pets': ['Zeus', 'Zuko']},

 {'age': 38, 'name': 'Katie', 'pets': ['Sixes', 'Stache', 'Cisco']}]}

asjson =json.dumps(result)

asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'

siblings =pd.DataFrame(result['siblings'], columns=['name', 'age'])

siblings

猜你喜欢

转载自blog.csdn.net/weixin_38987362/article/details/80898521
今日推荐