df = pd.read_csv(‘文件名’,header = 0)
df.shape 查看文件的行数和列数
df.head(5) 查看文件的前五行
df.drop([列名],axis = 1) 或者 df.drop([列名], 1)
df.drop('c',inplace=True) inplace = True的时候会将原数据也修改
df.列名.unique() 选出这一列的不重复项有哪些
df['diagnosis'] =df['diagnosis'].map({'M' : 0, 'B' : 1}) diagnosis为一列,map中放置一个字典,将一个列中的数据进行重命名
list(df.columns[ : ])取出df的列名
apply函数可以对DataFrame对象进行操作,既可以作用于一行或者一列的元素,也可以作用于单个元素。
df.apply(f) 默认axis为0
df.apply(f,axis=1)
format = lambda x:'%.2f' % x df.applymap(format) 来对数据进行格式的限制
df.sort_values(by=['a','b'])
df.describe() 可以显示出每一列的均值等信息
df.fillna({1:0.5,2:-1})第一列的空值换为0.5 第二列的空值换位-1
numpy的设计目的是处理大数据,不可能一直复制数据,直接在原数据上进行操作 如果想得到ndarray切片的一份副本而非视图,需要显示地进行复制,arr[5:8].copy()
pd.read_csv('ex2.csv',names=['a', 'b', 'c', 'd', 'message'])将列重命名
读取文件
withopen('examples/ex7.csv') as f:
lines = list(csv.reader(f))
header, values =lines[0], lines[1:]
读取json文件
import json
result =json.loads(obj)
{'name': 'Wes',
'pet':None,
'places_lived': ['United States', 'Spain','Germany'],
'siblings': [{'age': 30, 'name': 'Scott','pets': ['Zeus', 'Zuko']},
{'age': 38, 'name': 'Katie', 'pets': ['Sixes', 'Stache', 'Cisco']}]}
asjson =json.dumps(result)
asjson
'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}'
siblings =pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings