如果有一系列字典或对象实例,我们想根据某个特定字段来分组迭代数据。
有一字典列表:
rows = [
{'address': '北京朝阳区金台路', 'date': '07/01/2012'},
{'address': '北京朝阳区将台', 'date': '07/04/2012'},
{'address': '北京海淀区上地三街', 'date': '07/21/2012'},
{'address': '河北省廊坊市广阳区', 'date': '07/03/2012'},
{'address': '云南省丽江市', 'date': '07/02/2012'},
{'address': '福建省泉州市', 'date': '07/01/2012'},
{'address': '上海市陆家嘴', 'date': '07/04/2012'}
]
现在根据日期以分组的方式迭代数据。首先,以目标字段来对序列排序,然后,在使用itertools.groupby()。
from operator import itemgetter
from itertools import groupby
rows.sort(key=itemgetter('date'))
for date, items in groupby(rows, key=itemgetter('date')):
print(date)
for i in items:
print(' ', i)
输出结果
07/01/2012
{'address': '北京朝阳区金台路', 'date': '07/01/2012'}
{'address': '福建省泉州市', 'date': '07/01/2012'}
07/02/2012
{'address': '云南省丽江市', 'date': '07/02/2012'}
07/03/2012
{'address': '河北省廊坊市广阳区', 'date': '07/03/2012'}
07/04/2012
{'address': '北京朝阳区将台', 'date': '07/04/2012'}
{'address': '上海市陆家嘴', 'date': '07/04/2012'}
07/21/2012
{'address': '北京海淀区上地三街', 'date': '07/21/2012'}
函数groupby()通过扫描序列找出拥有相同值(或是由参数key指定的函数所返回的值)的序列值,并将它们分组。groupby()创建了一个迭代器,而在每次迭代时都会返回一个值和一个子迭代器,这个子迭代器可以产生所有在该分组内具有该值的项。
这里重要的是首先根据感兴趣的字段对数据进行排序。因为groupby()只能检查持续的项,不先排序的话,将无法按所想的方式来对记录进行排序。
也可以使用defaultdict()构建一个一键多值字典
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
rows_by_date[row['date']].append(row)
for r in rows_by_date['07/04/2012']:
print(r)
输出结果
{'address': '北京朝阳区将台', 'date': '07/04/2012'}
{'address': '上海市陆家嘴', 'date': '07/04/2012'}