【Análisis y visualización de datos】 Pandas Dataframe

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
 # 引入网页
import webbrowser
link = 'https://www.tiobe.com/tiobe-index/'
webbrowser.open(link)
True
# 获取剪贴板数据
df = pd.read_clipboard()
df
Año Ganador
2019 medalla C
2018 medalla Pitón
2017 medalla C
2016 medalla Vamos
2015 medalla Java
2014 medalla JavaScript
2013 medalla Transact-SQL
2012 medalla C objetivo
2011 medalla C objetivo
2010 medalla Pitón
2009 medalla Vamos
2008 medalla C
2007 medalla Pitón
2006 medalla Rubí
2005 medalla Java
2004 medalla PHP
2003 medalla C ++
# 查看类型-DataFrame
type(df)
pandas.core.frame.DataFrame
# 返回列
df.columns
Index(['Year', 'Winner'], dtype='object')
# 获取某列的value
df.Winner
2019               C
2018          Python
2017               C
2016              Go
2015            Java
2014      JavaScript
2013    Transact-SQL
2012     Objective-C
2011     Objective-C
2010          Python
2009              Go
2008               C
2007          Python
2006            Ruby
2005            Java
2004             PHP
2003             C++
Name: Winner, dtype: object
# 提取数据生成新 过滤DataFrame
df_new = DataFrame(df, columns=['Year'])
df_new
Año
2019 medalla
2018 medalla
2017 medalla
2016 medalla
2015 medalla
2014 medalla
2013 medalla
2012 medalla
2011 medalla
2010 medalla
2009 medalla
2008 medalla
2007 medalla
2006 medalla
2005 medalla
2004 medalla
2003 medalla
# 假如列名有空格,用此方法读取
df_new['Year']
2019    medal
2018    medal
2017    medal
2016    medal
2015    medal
2014    medal
2013    medal
2012    medal
2011    medal
2010    medal
2009    medal
2008    medal
2007    medal
2006    medal
2005    medal
2004    medal
2003    medal
Name: Year, dtype: object
# 其中某列的类型 Series
type(df_new['Year'])
pandas.core.series.Series
# 提取数据生成新 过滤DataFrame
# 如果列名根本不存在 值默认为NaN
df_new = DataFrame(df, columns=['Year','Age'])
df_new
Año Años
2019 medalla NaN
2018 medalla NaN
2017 medalla NaN
2016 medalla NaN
2015 medalla NaN
2014 medalla NaN
2013 medalla NaN
2012 medalla NaN
2011 medalla NaN
2010 medalla NaN
2009 medalla NaN
2008 medalla NaN
2007 medalla NaN
2006 medalla NaN
2005 medalla NaN
2004 medalla NaN
2003 medalla NaN
# 通过字典方式给空值赋值(必须全部写满列)
df_new['Age'] = range(0,17)
df_new
Año Años
2019 medalla 0 0
2018 medalla 1
2017 medalla 2
2016 medalla 3
2015 medalla 4 4
2014 medalla 5 5
2013 medalla 6 6
2012 medalla 7 7
2011 medalla 8
2010 medalla 9 9
2009 medalla 10
2008 medalla 11
2007 medalla 12
2006 medalla 13
2005 medalla 14
2004 medalla 15
2003 medalla dieciséis
df_new['Age'] = np.arange(0,17)
df_new
Año Años
2019 medalla 0 0
2018 medalla 1
2017 medalla 2
2016 medalla 3
2015 medalla 4 4
2014 medalla 5 5
2013 medalla 6 6
2012 medalla 7 7
2011 medalla 8
2010 medalla 9 9
2009 medalla 10
2008 medalla 11
2007 medalla 12
2006 medalla 13
2005 medalla 14
2004 medalla 15
2003 medalla dieciséis
# 利用DataFrame某列返回值是Series类型的特点
df_new['Age'] = pd.Series(np.arange(0,17))
df_new
Año Años
2019 NaN NaN
2018 NaN NaN
2017 NaN NaN
2016 NaN NaN
2015 NaN NaN
2014 NaN NaN
2013 NaN NaN
2012 NaN NaN
2011 NaN NaN
2010 NaN NaN
2009 NaN NaN
2008 NaN NaN
2007 NaN NaN
2006 NaN NaN
2005 NaN NaN
2004 NaN NaN
2003 NaN NaN
# 修改部分值
df_new['Age'] = pd.Series([18, 17], index=[2019, 2018])
df_new
Año Años
2019 NaN 18,0
2018 NaN 17,0
2017 NaN NaN
2016 NaN NaN
2015 NaN NaN
2014 NaN NaN
2013 NaN NaN
2012 NaN NaN
2011 NaN NaN
2010 NaN NaN
2009 NaN NaN
2008 NaN NaN
2007 NaN NaN
2006 NaN NaN
2005 NaN NaN
2004 NaN NaN
2003 NaN NaN
234 artículos originales publicados · Me gusta 164 · Visitas 140,000+

Supongo que te gusta

Origin blog.csdn.net/weixin_43469680/article/details/105559990
Recomendado
Clasificación