【Análisis y visualización de datos】 Preprocesamiento de datos a través de aplicar

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
# 读取apply_demo.csv数据
link_csv = '/Users/bennyrhys/Desktop/数据分析可视化-数据集/homework/apply_demo.csv'
df = pd.read_csv(link_csv).head()
df
hora datos
0 0 1473411962 Símbolo: APPL Seqno: 0 Precio: 1623
1 1473411962 Símbolo: APPL Seqno: 0 Precio: 1623
2 1473411963 Símbolo: APPL Seqno: 0 Precio: 1623
3 1473411963 Símbolo: APPL Seqno: 0 Precio: 1623
4 4 1473411963 Símbolo: APPL Seqno: 1 Precio: 1649
df.size
10
# 新加一列Series
s1 = Series(['a']*10)
s1
0    a
1    a
2    a
3    a
4    a
5    a
6    a
7    a
8    a
9    a
dtype: object
df['A'] = s1
df.head()
hora datos UNA
0 0 1473411962 Símbolo: APPL Seqno: 0 Precio: 1623 una
1 1473411962 Símbolo: APPL Seqno: 0 Precio: 1623 una
2 1473411963 Símbolo: APPL Seqno: 0 Precio: 1623 una
3 1473411963 Símbolo: APPL Seqno: 0 Precio: 1623 una
4 4 1473411963 Símbolo: APPL Seqno: 1 Precio: 1649 una
# 将A列小写全变为大写(函数.apply(str.upper))
df['A'] = df['A'].apply(str.upper)
df
hora datos UNA
0 0 1473411962 Símbolo: APPL Seqno: 0 Precio: 1623 UNA
1 1473411962 Símbolo: APPL Seqno: 0 Precio: 1623 UNA
2 1473411963 Símbolo: APPL Seqno: 0 Precio: 1623 UNA
3 1473411963 Símbolo: APPL Seqno: 0 Precio: 1623 UNA
4 4 1473411963 Símbolo: APPL Seqno: 1 Precio: 1649 UNA
# 切分去除data数据
df['data'][0]
' Symbol: APPL Seqno: 0 Price: 1623'
# 去除头尾strip,且空格分割split
l1 = df['data'][0].strip().split(' ')
l1
['Symbol:', 'APPL', 'Seqno:', '0', 'Price:', '1623']
# 想要的是字典值
l1[1],l1[3],l1[5]
('APPL', '0', '1623')
# 写分割返回函数
def foo(line):
    items = line.strip().split(' ')
    return Series([items[1],items[3],items[5]])
# 分割完生成新的数框
df_tmp = df['data'].apply(foo)
df_tmp
0 0 1 2
0 0 APPL 0 0 1623
1 APPL 0 0 1623
2 APPL 0 0 1623
3 APPL 0 0 1623
4 4 APPL 1 1649
# 新的数框 重命名
df_tmp = df_tmp.rename(columns={0:'Symbol',1:'Seqno',2:'Price'})
df_tmp
Símbolo Seqno Precio
0 0 APPL 0 0 1623
1 APPL 0 0 1623
2 APPL 0 0 1623
3 APPL 0 0 1623
4 4 APPL 1 1649
df
hora datos UNA
0 0 1473411962 Símbolo: APPL Seqno: 0 Precio: 1623 UNA
1 1473411962 Símbolo: APPL Seqno: 0 Precio: 1623 UNA
2 1473411963 Símbolo: APPL Seqno: 0 Precio: 1623 UNA
3 1473411963 Símbolo: APPL Seqno: 0 Precio: 1623 UNA
4 4 1473411963 Símbolo: APPL Seqno: 1 Precio: 1649 UNA
# 新旧两个数框 结合
df_new = df.combine_first(df_tmp)
df_new
UNA Precio Seqno Símbolo datos hora
0 0 UNA 1623,0 0.0 APPL Símbolo: APPL Seqno: 0 Precio: 1623 1473411962
1 UNA 1623,0 0.0 APPL Símbolo: APPL Seqno: 0 Precio: 1623 1473411962
2 UNA 1623,0 0.0 APPL Símbolo: APPL Seqno: 0 Precio: 1623 1473411963
3 UNA 1623,0 0.0 APPL Símbolo: APPL Seqno: 0 Precio: 1623 1473411963
4 4 UNA 1649,0 1.0 APPL Símbolo: APPL Seqno: 1 Precio: 1649 1473411963
# 去掉多余已经处理的data
del df_new['data']
del df_new['A']
df_new
Precio Seqno Símbolo hora
0 0 1623,0 0.0 APPL 1473411962
1 1623,0 0.0 APPL 1473411962
2 1623,0 0.0 APPL 1473411963
3 1623,0 0.0 APPL 1473411963
4 4 1649,0 1.0 APPL 1473411963
# 转存到外部继续用
df_new.to_csv('/Users/bennyrhys/Desktop/数据分析可视化-数据集/homework/demo_duplicate.csv')
!ls /Users/bennyrhys/Desktop/数据分析可视化-数据集/homework
AMZN.csv           apply_demo.csv     iris.csv           top5.csv
BABA.csv           city_weather.csv   movie_metadata.csv train.csv
Pokemon.csv        demo_duplicate.csv sales-funnel.xlsx  usa_flights.csv
234 artículos originales publicados · Me gusta 164 · Visitas 140,000+

Supongo que te gusta

Origin blog.csdn.net/weixin_43469680/article/details/105623376
Recomendado
Clasificación