pandas的入门基础和框架使用

编程语言 2018-05-27 00:58:56 阅读次数: 0

【因为近段时间在学习使用python进行数据分析，接触了pandas中的DataFrame，对这个DataFrame感觉很好，就顺带学习了以下其官方指导和基础知识。这里结合官方网页内容进行将要陈述，是对初次接触pandas的一个非常好的指导和说明。】

DataFrame是进行数据分析的一个绕不过去的数据框架格式，这个数据框架我个人认为可以理解成为一种矩阵，并且是一种平面的二维结构矩阵。也就是说，可以将多维数据矩阵从形式上降解成为普通的二维矩阵，这样对于数据分析和处理就要轻松很多。这里结合官网手册和指导文件《10 Minutes to pandas》进行一个简要翻译和小结。

本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包：

一、创建对象

可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。

1、可以通过传递一个list对象来创建一个Series，pandas会默认创建整型索引：

2、通过传递一个numpy array，时间索引以及列标签来创建一个DataFrame：

3、通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame：

4、查看不同列的数据类型：

5、如果你使用的是IPython，使用Tab自动补全功能会自动识别所有的属性以及自定义的列，下图中是所有能够被自动识别的属性的一个子集：

二、查看数据

详情请参阅：Basics Section

很常用的但是原文中没说的一个查看：用for循环来迭代数据：

for index,row in df.iterrows():

print('行索引:',index)

print('行数据:',row)

1、查看frame中头部和尾部的行：

2、显示索引、列和底层的numpy数据：

3、describe()函数对于数据的快速统计汇总：

4、对数据的转置：

5、按轴进行排序

6、按值进行排序

三、选择

虽然标准的Python/Numpy的选择和设置表达式都能够直接派上用场，但是作为工程使用的代码，我们推荐使用经过优化的pandas数据访问方式： .at, .iat, .loc, .iloc 和 .ix详情请参阅Indexing and Selecing Data 和 MultiIndex / Advanced Indexing。

很常用的但是原文中没说的一个查询：通过行号和列名定位单元格，比如取出第三行的pname字段的值，我的办法：

df.iloc[2].pname，如果你明确知道行索引可以用loc：df.loc[index].pname；最后是万能式：df.ix[2][pname]或df.ix[index][2]，索引与列，均可为序号或名称

3.1 获取

1、选择一个单独的列，这将会返回一个Series，等同于df.A：

2、通过[]进行选择，这将会对行进行切片

3.2 通过标签选择

1、使用标签来获取一个交叉的区域

2、通过标签来在多个轴上进行选择

3、标签切片

4、对于返回的对象进行维度缩减

5、获取一个标量

6、快速访问一个标量（与上一个方法等价）

3.3 通过位置选择

1、通过传递数值进行位置选择（选择的是行）

2、通过数值进行切片，与numpy/python中的情况类似

3、通过指定一个位置的列表，与numpy/python中的情况类似

4、对行进行切片

5、对列进行切片

6、获取特定的值

3.4 布尔索引

1、使用一个单独列的值来选择数据：

2、使用where操作来选择数据：

3、使用isin()方法来过滤：

在索引index中搜索，这是最基本的查询了：

比如查询数据中是否有‘2013-01-01’ 这天的数据：
if len(df.query('index == "{0}"'.format('2013-01-01')) )>0:

3.5设置

按条件修改列值：

list(df['colName'].apply(lambda x:1 if x>np.mean(df(traindf['colName'])) else 0))#大于该列平均值则为1

1、设置一个新的列：

2、通过标签设置新的值：

3、通过位置设置新的值：

4、通过一个numpy数组设置一组新值：

上述操作结果如下：

5、通过where操作来设置新的值：

四、缺失值处理

在pandas中，使用np.nan来代替缺失值，这些值将默认不会包含在计算中，详情请参阅：Missing Data Section。

1、 reindex()方法可以对指定轴上的索引进行改变/增加/删除操作，这将返回原始数据的一个拷贝：、

2、去掉包含缺失值的行：

3、对缺失值进行填充：

4、对数据进行布尔填充：

五、相关操作

详情请参与 Basic Section On Binary Ops

5.1 统计（相关操作通常情况下不包括缺失值）

1、执行描述性统计：

2、在其他轴上进行相同的操作：

3、对于拥有不同维度，需要对齐的对象进行操作。Pandas会自动的沿着指定的维度进行广播：

5.2 Apply

1、对数据应用函数：

2、直方图

具体请参照：Histogramming and Discretization

3、字符串方法

Series对象在其str属性中配备了一组字符串处理方法，可以很容易的应用到数组中的每个元素，如下段代码所示。更多详情请参考：Vectorized String Methods.

六、合并

Pandas提供了大量的方法能够轻松的对Series，DataFrame和Panel对象进行各种符合各种逻辑关系的合并操作。具体请参阅：Merging section。我理解这种操作主要集中在合并上，即Merge，这种合并主要有三种方式，具体如下：

6.1 Concat

这种合并方式可以理解成为一种横向的合并操作，合并后主要变化在于列数目的增加。

把一个字典插入表中形成新的一列：df['列名'][dict.keys()] = dict.values()

删除一列：del df['列名']

6.2 Join 类似于SQL类型的合并。合并的条件是合并的两张表必须具有相同的字段，如下面代码中的foo、foo。

具体请参阅：Database style joining

6.3 Append 将一行连接到一个DataFrame上，可以理解成为类似于表list结构的增加，是一种纵向上的合并，主要变化发生在行数上，即将一个新的表格合并到数据底部。

具体请参阅Appending：

七、分组

对于”group by”操作，我们通常是指以下一个或多个操作步骤：

（Splitting）按照一些规则将数据分为不同的组；

（Applying）对于每组数据分别执行一个函数；

（Combining）将结果组合到一个数据结构中；

详情请参阅：Grouping section

1、分组并对每个分组执行sum函数：

2、通过多个列进行分组形成一个层次索引，然后执行函数：

八、Reshaping

详情请参阅 Hierarchical Indexing 和 Reshaping。

8.1 Stack

8.2 数据透视表，详情请参阅：Pivot Tables.

可以从这个数据中轻松的生成数据透视表：

九、时间序列

Pandas在对频率转换进行重新采样时拥有简单、强大且高效的功能（如将按秒采样的数据转换为按5分钟为单位进行采样的数据）。这种操作在金融领域非常常见。具体参考：Time Series section。

更改日期列的日期格式：df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d')

1、时区表示：

2、时区转换：

3、时间跨度转换：

4、时期和时间戳之间的转换使得可以使用一些方便的算术函数。

十、Categorical

从0.15版本开始，pandas可以在DataFrame中支持Categorical类型的数据，详细介绍参看：categorical introduction和API documentation。

1、将原始的grade转换为Categorical数据类型：

2、将Categorical类型数据重命名为更有意义的名称：

3、对类别进行重新排序，增加缺失的类别：

4、排序是按照Categorical的顺序进行的而不是按照字典顺序进行：

5、对Categorical列进行排序时存在空的类别：

十一、画图

这一部分主要涉及到数据可视化，采用的主要是matplotlib数据包进行数据可视化。

具体文档参看：Plotting docs

对于DataFrame来说，plot是一种将所有列及其标签进行绘制的简便方法：

十二、导入和保存数据

12.1 CSV

参考：Writing to a csv file

1、写入csv文件：

2、从csv文件中读取：

12.2 HDF5

参考：HDFStores

1、写入HDF5存储：

2、从HDF5存储中读取：

12.3 Excel

参考：MS Excel

1、写入excel文件：

2、从excel文件中读取：

以上就是对pandas的基本应用和说明，对于上手pandas有很强的指导和帮助作用。

猜你喜欢

转载自blog.csdn.net/kevinQt/article/details/80379645

pandas的入门基础和框架使用

Numpy和Pandas的使用入门

Pandas入门与基础

Python Pandas 入门基础

Python pandas基础入门

数据清洗框架Pandas入门

Pandas的入门使用

pandas基础使用

pandas 基础和示例

Pandas基础知识入门

CMake基础入门和使用

pandas入门（一）：pandas的安装和创建

pandas库Series使用和ix、loc、iloc基础用法

MySQL基础入门使用和命令的使用

Hibernate框架基础配置和使用（1）

Hibernate框架基础配置和使用（2）

pandas 基础使用方法

【数据分析 - 基础入门之pandas篇①】- pandas介绍

TestNg框架基础入门

Activiti入门之三--ORM框架MyBatis的基础及使用

数据挖掘 pandas基础入门之选择

数据挖掘 pandas基础入门之操作

Pandas文件读取——零基础入门

数据分析之Pandas 基础入门

【Python 零基础入门】Pandas

大数据学习入门基础框架hadoop架构和原理

[译]使用 Python 的 Pandas 和 Seaborn 框架从 Kaggle 数据集中提取信息

Pandas基础使用（机器学习基础）

Pandas 库的详解和使用

Numpy和Pandas使用整理

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)