Python高级编程-itertoos模块

Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。

首先我们看看itertools模块提供的几个“无限”迭代器,

 import itertools
 
 naturals = itertools.count(1)
 for i in naturals:  # Count(self, start, step)
     print(i)

因为count()会创建一个无限的迭代器,所以上述代码会打印出自然数序列,根本停不下来,只能按Ctrl+C退出

islice() 正好适用于在迭代器和生成器上做切片操作。

 for i in itertools.islice(naturals, 1, 10):
     print(i)

程序输出的是2到10,注意islice()函数输出不包含start,包含stop

cycle()会把传入的一个序列无限重复下去:

 for i in itertools.cycle([1, 2, 3]):
     print(i)

同样停不下来

repeat()负责把一个元素无限重复下去,不过如果提供第二个参数就可以限定重复次数

 for c in itertools.repeat('A', 3):
     print(c)

程序输出:

 A
 A
 A

无限序列只有在for迭代时才会无限地迭代下去,如果只是创建了一个迭代对象,它不会事先把无限个元素生成出来,事实上也不可能在内存中创建无限多个元素。

无限序列虽然可以无限迭代下去,但是通常我们会通过takewhile()等函数根据条件判断来截取出一个有限的序列:

 naturals = itertools.count(1)
 for i in itertools.takewhile(lambda x: x < 10, naturals):
     print(i)

程序输出1到9的自然数。

与takewhile()相对应的有dropwhile()

 for i in itertools.dropwhile(lambda x: x >= 10, naturals):
     print(i)

chain()可以把一组迭代对象串联起来,形成一个更大的迭代器:

 for i in itertools.chain([1, 2, 3], [4, 5, 6]):
     print(i)

 itertools.chain() 接受一个或多个可迭代对象最为输入参数。然后创建一个迭代器,依次连续的返回每个可迭代对象中的元素。这种方式要比先将序列合并再迭代要高效的多。

groupby()把迭代器中相邻的重复元素挑出来放在一起:

 for key, group in itertools.groupby('AAABBBCCCAAA'):
     print(key, list(group))

实际上挑选规则是通过函数完成的,只要作用于函数的两个元素返回的值相等,这两个元素就被认为是在一组的,而函数返回值作为组的key。如果我们要忽略大小写分组,就可以让元素'A''a'都返回相同的key:

 for key, group in itertools.groupby('AaaBbbCCc', lambda c: c.upper()):
     print(key, list(group))

itertools模块提供的全部是处理迭代功能的函数,它们的返回值不是list,而是Iterator,只有用for循环迭代的时候才真正计算

你想在迭代一个序列的同时跟踪正在被处理的元素索引?内置的enumerate() 函数可以很好的解决这个问题:

 list_c = ['a', 'b', 'c']
 for i, c in enumerate(list_c):
     print(i, c)

为了按传统行号输出(行号从1 开始),你可以传递一个开始参数:

 list_c = ['a', 'b', 'c']
 for i, c in enumerate(list_c, 1):
     print(i, c)

利用enumerate()函数,在你遍历文件时想在错误消息中使用行号定位时候非常有用:

def parser_file(filename):
    with open(filename) as f:
        for line_no, line in enumerate(f):
            fields = line.split('=')
            try:
                count = int(fields[0])
                print(count)
            except ValueError as e:
                print("line {0} parse error:[{1}]".format(line_no, e))


def main():
    parser_file("test.txt")

if __name__ == '__main__':
    main()

enumerate() 函数返回的是一个enumerate 对象实例,它是一个迭代器,返回连续的包含一个计数和一个值的元组,元组中的值通过在传入序列上调用next() 返回。

还有一点可能并不很重要,但是也值得注意,有时候当你在一个已经解压后的元组序列上使用enumerate() 函数时很容易调入陷阱。你得像下面正确的方式这样写:

t_list = [(1, 2), (3, 4), (5, 6)]

# Error!
for i, x, y in enumerate(t_list, 1):
    print("{0}:({1}, {2})".format(i, x, y))

# Correct!
for i, (x, y) in enumerate(t_list, 1):
    print("{0}:({1}, {2})".format(i, x, y)

猜你喜欢

转载自blog.csdn.net/dz45693/article/details/81739603