pandas dataframe.groupby，根据另一列的大小关系提取其他列的值

企业开发 2023-08-18 19:48:35 阅读次数: 0

问题描述

对于一个Dataframe而言，有时候我们需要对列进行分组，并且在每个组的内部根据另一列的信息提取其他列内部的数据。比如股票价格的数据，一只股票在不同日期，每个日期的不同时间点都产生了不同的股票价格。我们如果想要得到每个日期的开盘价格、收盘价格，就需要对日期进行归类，获取时间最靠前的价格数据。

数据情况

这里我们使用一个人工产生的数据，这是Jeff Heaton教授网站的一个公开数据，通过下面的代码我们可以看到这个数据是每天不同时间点的股票数据。

import pandas as pd

df = pd.read_csv("https://data.heatonresearch.com/data/t81-558/datasets/series-31.csv")
display(df.head())

	time	value
0	08-22-2019 12:51	19.195359
1	09-19-2019 09:44	13.519543
2	08-26-2019 14:05	9.191413
3	08-19-2019 16:37	18.346598
4	09-05-2019 09:18	1.349778

目标

提取每一天的股票开盘价、收盘价，即对于每一天而言，时间点最小的那个对应的股票价格。

代码

def extract_date(time):
    return pd.to_datetime(time[:time.find(' ')])

df['date'] = df['time'].map(extract_date)   #把日期单独抽取出来，用于归类
df['time'] = pd.to_datetime(df['time'], errors='coerce')    #转化为datetime类型，可以进行大小的比较

starting_time_idx = df.groupby(['date'])['time'].idxmin()   #idxmin()给出组内部time最小的那行的行数
ending_time_idx = df.groupby(['date'])['time'].idxmax()     #类似idxmin(), idxmax()给出time最大的行数

result_df = pd.DataFrame()
result_df['starting'] = df.loc[starting_time_idx]['value'].values
result_df['ending'] = df.loc[ending_time_idx]['value'].values

猜你喜欢

转载自blog.csdn.net/Petersburg/article/details/131064167

pandas dataframe.groupby，根据另一列的大小关系提取其他列的值

pandas DataFrame 根据其他列新建列并赋值

使用pandas更新DataFrame某一列（值位于另一个DataFrame）

Pandas:如何修改DataFrame中某一列的值？

pandas dataframe根据列值筛选数据

pandas根据条件替换某一列的值

pandas根据现有列新添加一列

如何提取pandas.DataFrame数据表中某一列的类别

pandas添加一行数据的方法&根据某一列的值修改某一列的值

Python pandas的dataframe怎么去除行号第一列

如何在 Pandas DataFrame 中插入一列

【如何在 Pandas DataFrame 中插入一列】

pandas笔记3：修改Dataframe一列的最大值及loc，iloc用法

pandas 将dataframe中某一列的值中的字母全部变为大写

Pandas 根据列的数值选择DataFrame的多行

pandas根据某一列的差值快速均匀插值--interpolate

pandas按某一层索引分组取某一列的最大值，groupby()，idxmax()

Pandas修改csv文件某一列的值

pandas 取出某一列的数值是缺失值的行

pandas替换列值

pandas读写csv，并增加一列

使用pandas删除一列

pandas多行合并成一列

python&pandas | 多进程处理dataframe通过某一列计算新列

更改pandas dataframe 列的顺序

pandas的DataFrame对列的常用操作

Pandas截取列部分字符，并据此修改另一列的数据

pandas的groupby

【pandas】groupby()

Pandas 根据指定列合并（聚合）数据，groupby()

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)