python pandas包操作以及dataframe

其他 2018-06-06 22:12:45 阅读次数: 0

python pandas 以及 dataframe

今天来总结一下python中pandas包的一些使用方法，还有一些对文件的一些操作。都是一些比较简单的操作。同样是以题来进行说明

首先引入包
import pandas as pd import numpy as np

（1）通过pandas包将数据flight.csv读取成dataframe，命名为df，然后进行操作。

读取csv文件

df = pd.read_csv('flight.csv')

这里写图片描述
（2）进行数据观察：查看数据的条数，查看各字段的类型，查看数据框的头尾部分的数据，查看数据的概况；对缺失值数据，进行填充，填充值为0。

查看数据条数

print df.shape
查看字段类型

print df.dtypes
查看数据框首尾的部分

print df.head(10) print df.tail(10)
查看数据概况
print df.describe()
缺失值数据处理
df.fillna(value = 0 )

（3）按字段取出‘date’’dist’和‘flight’形成新的df1；按位置选取数据框的行为3和4，列为0,1的数
据形成新的df2；

取列

df1 = df.loc[:,['date','dist','flight']]
按位置选取

df2 = df.ix[[3,4],[0,1]]

（4）在原始的df中添加一列‘low_dest’，内容是‘dest’这列的字符串的小写形式

添加一列

df['low_dest'] = df['dest'].str.lower()

（5）从原始的df中选取‘dist’大于1000并且小于1200的数据作为一个新的df3，再从原始数据中选取
‘time’大于100数据做为新的df4，然后将df3和df4，按行合并为一个数据框,命名为df5

选取数据

df3 = df[(df.dist>1000) & (df.dist<1200)] df4 = df[df.time>100]
数据合并
df5 = pd.concat([df3,df4],axis = 1)

（6）取出df3中的‘time’,‘dist’这两列做为df6，求出df6中每列中最大值与最小值的差值（对数据运
用函数的方式）

取数据

df6 = df3.loc[:,['time','dist']]
进行运算
df6.apply(lambda x : x.max() - x.min())
运算结果

（7）将df根据“dest”分组，统计各目的地，都有多少条数据，命名为“dest_count”，然后将“dest”
和“dest_count”组成新的dataframe命名为df7（提示计算条数用np.size ）

分组

df7 = df.groupby('dest',as_index = False)['dest'].agg({'dest_count':np.size})

这里写图片描述

（8）分别将df5和 df7保存到本地文件，文件名分别为df5.csv和df7.csv

写入文件

df5.to_csv('df5.csv') df7.to_csv('df7.csv')

提示：在读取文件和写入文件的函数比如pd.read_csv() 和 df.to_csv()里面有很多参数，可以根据自己不同的需要选择合适的参数。具体使用可以参考官方文档。还有在选择列的时候也有多种不同的方式，并不唯一。pandas 官方文档

猜你喜欢

转载自blog.csdn.net/random0815/article/details/79772516

python pandas包操作以及dataframe

Python pandas DataFrame操作

python pandas随笔（DataFrame操作）

[python][pandas]DataFrame的基本操作

Python 数据处理扩展包： pandas 模块的DataFrame介绍（创建和基本操作）

Python pandas模块之Dataframe操作汇集

Python中Pandas库 Dataframe的基本操作

Python：pandas之DataFrame常用操作

Pandas基本操作：Series和DataFrame（Python）

python使用pandas模块介绍以及使用，dataframe结构，Series结构，基本数据操作,DataFrame运算，pandas画图，存储，缺失值处理，离散化，合并

Python3：Pandas的简单使用3(针对DataFrame的操作：赋值，计算，统计，画图以及io操作)

Python进阶-模块和包/random/datetime/ pandas和DataFrame

python下的Pandas中DataFrame基本操作，基本函数整理

python—pandas中DataFrame类型数据操作函数

python pandas dataframe 行列选择，切片操作

Python_pandas不是熊猫(2)——DataFrame、Series的排序操作

Python数据分析之 Pandas Dataframe分组与聚合操作

【Python数据分析 - 11】：DataFrame索引操作（pandas篇）

Python数据分析--Pandas入门--DataFrame简单操作

Python之pandas的DataFrame

Python pandas DataFrame

python pandas dataframe绘图

Python Pandas之DataFrame

[Python Cookbook] Pandas: Indexing of DataFrame

python：pandas DataFrame 连接表

【Python】Pandas入门（Series、DataFrame）

python 字典转 pandas DataFrame

python dict转pandas的DataFrame

pandas中DataFrame的apply()方法和applymap()方法，以及python内置函数map()

Python Pandas/ pandas.dataframe/dataframe 的主要方法（一）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)