pandas基本操作

本文是学习mlcc 《 intro_to_pandas》的所做笔记。

基本概念

Dataframe : 关系型数据表格,包含行和列
Series:列数据

创建数据

创建列数据

city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

构建表数据

cities = pd.DataFrame({ 'City name': city_names, 'Population': population })

访问数据

从csv加载表

california_housing_dataframe = pd.read_csv("https://storage.googleapis.com/ml_universities/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()

访问前几条

california_housing_dataframe.head(10)

访问列

cities[ 'City name']

访问行

cities[0]
cities[0:2]
cities['City name'][1]

操控数据

基本运算

cities['Population'] / 100

对于列的复杂计算

cities['Population'].apply(lambda val: val > 1000000)

增加数据列

cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']

按索引排列

cities.reindex([2, 0, 1])

猜你喜欢

转载自my.oschina.net/flyrobin/blog/1628762