Python探路者 2018-11-12
时间处理是在进行数据挖掘时很重要的一个方面,在参加比赛的时候很多比赛训练集给的时间和你最终要提交的时间格式是不同的。
我把我遇到的一种情况总结如下:
首先,题目给的格式是2016-09-10 4:23:21,而想要你提交的格式是2016-09-10-4-2(精确到每十分钟)。在处理时间数据的时候一般都是将时间字符串转换成datatime对象,或者pandas的Timestamp。可以首先把字符串转换成一个datatime类型,然后用strftime()把datatime类型的时间转换为需要的格式
>>from datetime import datetime >>time_str = 2016-09-10 4:23:21 >>time = datetime.strptime(time_str, '%Y-%m-%d %H:%M:%S')# 根据字符串本身的格式进行转换 >>time.strftime('%Y-%m-%d-%H-%M') Out>>'2016-09-10-04-23'
这样取得分钟位,但是要求只取到分钟的十位,可以用字符串处理的方法,去掉最后一位
>>time.strftime('%Y-%m-%d-%H-%M')[0:-1]
datetime.strptime是通过已知格式进行日期分析的最佳方式,但是每次都有编写格式定义是很麻烦的时间,尤其是对于一些常见的日期格式(《利用Python进行数据分析》),推荐使用dateutil这个第三方包中的parser.parse方法。
>>from dateutil.parser import parse >>parse('2016-09-10 4:23:21').strftime('%Y-%m-%d-%H-%M')[0:-1] >>Out:'2016-09-10-04-2'
直接出结果!