python时间处理（三）pandas.to_datetime

前两篇内容讲了两个单独的python库函数，今天带大家认识一个常用的工具，pandas.to_datetime()，它是pandas库的一个方法，pandas库想必大家非常熟悉了，这里不再多说。这个方法的实用性在于，当需要批量处理时间数据时，无疑是最好用的。

首先看一下它的主要几个参数，官方文档在本文最后给出

pandas.to_datetime（arg，errors ='raise'，utc = None，format = None，unit = None ）

参数意义

errors
三种取值，‘ignore’, ‘raise’, ‘coerce’，默认为raise。

'raise'，则无效的解析将引发异常

'coerce'，那么无效解析将被设置为NaT

'ignore'，那么无效的解析将返回输入值

utc
布尔值，默认为none。返回utc即协调世界时。

format 格式化显示时间的格式。

unit 默认值为‘ns’，则将会精确到微妙，‘s'为秒。

官方文档中有几个简单的例子，这里稍微提一下：
1、
df = pd.DataFrame({'year': [2015, 2016],
                       'month': [2, 3],
                       'day': [4, 5]})
pd.to_datetime(df)
#0   2015-02-04
#1   2016-03-05
#dtype: datetime64[ns]
#可以看到将字典形式时间转换为可读时间

2、
pd.to_datetime('13000101', format='%Y%m%d', errors='ignore')
#datetime.datetime(1300, 1, 1, 0, 0)

pd.to_datetime('13000101', format='%Y%m%d', errors='coerce')
#NaT
#如果日期不符合时间戳限制，则errors ='ignore'将返回原始输入，而不会报错。
#errors='coerce'将强制超出NaT的日期，返回NaT。

然而实际中遇到的可能是这样的数据：

通过pandas.read_csv()或者pandas.read_excel()读取文件过后，得到的数据列对应的类型是“object”，这样没法对时间数据处理，可以用过pd.to_datetime将该列数据转换为时间类型，即datetime。

data.dtypes
# object

data= pd.to_datetime(data)
data.dtypes
# datetime64[ns]
转换过后就可以对这些时间数据操作了，可以相减求时间差，计算相差的秒数和天数，调用的方法和datetime库的方法一致，分别是 data.dt.days() 、data.dt.seconds() 、data.dt.total_seconds()。

到这里就结束了吗？不不，还没有。这里再教大家通过pandas将时间与时间戳相互转换，原理是一样的通过datetime、time库，技巧是用apply()函数来实现它。

将data的所有时间转换为时间戳（此时数据类型已经是datetime，是object的报错不要找我。。）
data = data.apply(lambda x:time.mktime(x.timetuple()))
#x.timetuple()将时间转换为时间元组，提前导入time模块
将data的所有时间戳转换为可读时间：
data = data.apply(lambda x:time.strftime('%Y/%m/%d %H:%M:%S',time.localtime(x)))
#代码含义为：先读取时间戳数据，将其转换为时间元组，在通过格式化时间转换为可读的时间格式
结束了结束了。。

最后奉上官方文档：pandas.to_datetime

参数	意义
errors	三种取值，‘ignore’, ‘raise’, ‘coerce’，默认为raise。 'raise'，则无效的解析将引发异常 'coerce'，那么无效解析将被设置为NaT 'ignore'，那么无效的解析将返回输入值
utc	布尔值，默认为none。返回utc即协调世界时。
format	格式化显示时间的格式。
unit	默认值为‘ns’，则将会精确到微妙，‘s'为秒。

python时间处理（三）pandas.to_datetime

猜你喜欢