【Análisis y visualización de datos】 Preprocesamiento de datos a través de aplicar

import numpy as np
import pandas as pd
from pandas import Series, DataFrame

# 读取apply_demo.csv数据
link_csv = '/Users/bennyrhys/Desktop/数据分析可视化-数据集/homework/apply_demo.csv'
df = pd.read_csv(link_csv).head()
df

	hora	datos
0 0	1473411962	Símbolo: APPL Seqno: 0 Precio: 1623
1	1473411962	Símbolo: APPL Seqno: 0 Precio: 1623
2	1473411963	Símbolo: APPL Seqno: 0 Precio: 1623
3	1473411963	Símbolo: APPL Seqno: 0 Precio: 1623
4 4	1473411963	Símbolo: APPL Seqno: 1 Precio: 1649

df.size

# 新加一列Series
s1 = Series(['a']*10)
s1

0    a
1    a
2    a
3    a
4    a
5    a
6    a
7    a
8    a
9    a
dtype: object

df['A'] = s1
df.head()

	hora	datos	UNA
0 0	1473411962	Símbolo: APPL Seqno: 0 Precio: 1623	una
1	1473411962	Símbolo: APPL Seqno: 0 Precio: 1623	una
2	1473411963	Símbolo: APPL Seqno: 0 Precio: 1623	una
3	1473411963	Símbolo: APPL Seqno: 0 Precio: 1623	una
4 4	1473411963	Símbolo: APPL Seqno: 1 Precio: 1649	una

# 将A列小写全变为大写（函数.apply(str.upper)）
df['A'] = df['A'].apply(str.upper)
df

	hora	datos	UNA
0 0	1473411962	Símbolo: APPL Seqno: 0 Precio: 1623	UNA
1	1473411962	Símbolo: APPL Seqno: 0 Precio: 1623	UNA
2	1473411963	Símbolo: APPL Seqno: 0 Precio: 1623	UNA
3	1473411963	Símbolo: APPL Seqno: 0 Precio: 1623	UNA
4 4	1473411963	Símbolo: APPL Seqno: 1 Precio: 1649	UNA

# 切分去除data数据
df['data'][0]

' Symbol: APPL Seqno: 0 Price: 1623'

# 去除头尾strip，且空格分割split
l1 = df['data'][0].strip().split(' ')
l1

['Symbol:', 'APPL', 'Seqno:', '0', 'Price:', '1623']

# 想要的是字典值
l1[1],l1[3],l1[5]

('APPL', '0', '1623')

# 写分割返回函数
def foo(line):
    items = line.strip().split(' ')
    return Series([items[1],items[3],items[5]])

# 分割完生成新的数框
df_tmp = df['data'].apply(foo)
df_tmp

	0 0	1	2
0 0	APPL	0 0	1623
1	APPL	0 0	1623
2	APPL	0 0	1623
3	APPL	0 0	1623
4 4	APPL	1	1649

# 新的数框 重命名
df_tmp = df_tmp.rename(columns={0:'Symbol',1:'Seqno',2:'Price'})
df_tmp

	Símbolo	Seqno	Precio
0 0	APPL	0 0	1623
1	APPL	0 0	1623
2	APPL	0 0	1623
3	APPL	0 0	1623
4 4	APPL	1	1649

df

	hora	datos	UNA
0 0	1473411962	Símbolo: APPL Seqno: 0 Precio: 1623	UNA
1	1473411962	Símbolo: APPL Seqno: 0 Precio: 1623	UNA
2	1473411963	Símbolo: APPL Seqno: 0 Precio: 1623	UNA
3	1473411963	Símbolo: APPL Seqno: 0 Precio: 1623	UNA
4 4	1473411963	Símbolo: APPL Seqno: 1 Precio: 1649	UNA

# 新旧两个数框 结合
df_new = df.combine_first(df_tmp)
df_new

	UNA	Precio	Seqno	Símbolo	datos	hora
0 0	UNA	1623,0	0.0	APPL	Símbolo: APPL Seqno: 0 Precio: 1623	1473411962
1	UNA	1623,0	0.0	APPL	Símbolo: APPL Seqno: 0 Precio: 1623	1473411962
2	UNA	1623,0	0.0	APPL	Símbolo: APPL Seqno: 0 Precio: 1623	1473411963
3	UNA	1623,0	0.0	APPL	Símbolo: APPL Seqno: 0 Precio: 1623	1473411963
4 4	UNA	1649,0	1.0	APPL	Símbolo: APPL Seqno: 1 Precio: 1649	1473411963

# 去掉多余已经处理的data
del df_new['data']
del df_new['A']
df_new

	Precio	Seqno	Símbolo	hora
0 0	1623,0	0.0	APPL	1473411962
1	1623,0	0.0	APPL	1473411962
2	1623,0	0.0	APPL	1473411963
3	1623,0	0.0	APPL	1473411963
4 4	1649,0	1.0	APPL	1473411963

# 转存到外部继续用
df_new.to_csv('/Users/bennyrhys/Desktop/数据分析可视化-数据集/homework/demo_duplicate.csv')

!ls /Users/bennyrhys/Desktop/数据分析可视化-数据集/homework

AMZN.csv           apply_demo.csv     iris.csv           top5.csv
BABA.csv           city_weather.csv   movie_metadata.csv train.csv
Pokemon.csv        demo_duplicate.csv sales-funnel.xlsx  usa_flights.csv

bennyrhys

234 artículos originales publicados · Me gusta 164 · Visitas 140,000+

carta privada preocupaciones

【Análisis y visualización de datos】 Preprocesamiento de datos a través de aplicar

Supongo que te gusta