Python高级编程-itertoos模块

Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。

首先我们看看itertools模块提供的几个“无限”迭代器，

 import itertools
 
 naturals = itertools.count(1)
 for i in naturals:  # Count(self, start, step)
     print(i)

因为count()会创建一个无限的迭代器，所以上述代码会打印出自然数序列，根本停不下来，只能按Ctrl+C退出

islice() 正好适用于在迭代器和生成器上做切片操作。

 for i in itertools.islice(naturals, 1, 10):
     print(i)

程序输出的是2到10，注意islice()函数输出不包含start，包含stop

cycle()会把传入的一个序列无限重复下去：

 for i in itertools.cycle([1, 2, 3]):
     print(i)

同样停不下来

repeat()负责把一个元素无限重复下去，不过如果提供第二个参数就可以限定重复次数

 for c in itertools.repeat('A', 3):
     print(c)

程序输出：

 A
 A
 A

无限序列只有在for迭代时才会无限地迭代下去，如果只是创建了一个迭代对象，它不会事先把无限个元素生成出来，事实上也不可能在内存中创建无限多个元素。

无限序列虽然可以无限迭代下去，但是通常我们会通过takewhile()等函数根据条件判断来截取出一个有限的序列：

 naturals = itertools.count(1)
 for i in itertools.takewhile(lambda x: x < 10, naturals):
     print(i)

程序输出1到9的自然数。

与takewhile()相对应的有dropwhile()

 for i in itertools.dropwhile(lambda x: x >= 10, naturals):
     print(i)

chain()可以把一组迭代对象串联起来，形成一个更大的迭代器：

 for i in itertools.chain([1, 2, 3], [4, 5, 6]):
     print(i)

itertools.chain() 接受一个或多个可迭代对象最为输入参数。然后创建一个迭代器，依次连续的返回每个可迭代对象中的元素。这种方式要比先将序列合并再迭代要高效的多。

groupby()把迭代器中相邻的重复元素挑出来放在一起：

 for key, group in itertools.groupby('AAABBBCCCAAA'):
     print(key, list(group))

实际上挑选规则是通过函数完成的，只要作用于函数的两个元素返回的值相等，这两个元素就被认为是在一组的，而函数返回值作为组的key。如果我们要忽略大小写分组，就可以让元素'A'和'a'都返回相同的key：

 for key, group in itertools.groupby('AaaBbbCCc', lambda c: c.upper()):
     print(key, list(group))

itertools模块提供的全部是处理迭代功能的函数，它们的返回值不是list，而是Iterator，只有用for循环迭代的时候才真正计算

你想在迭代一个序列的同时跟踪正在被处理的元素索引?内置的enumerate() 函数可以很好的解决这个问题：

 list_c = ['a', 'b', 'c']
 for i, c in enumerate(list_c):
     print(i, c)

为了按传统行号输出(行号从1 开始)，你可以传递一个开始参数：

 list_c = ['a', 'b', 'c']
 for i, c in enumerate(list_c, 1):
     print(i, c)

利用enumerate()函数，在你遍历文件时想在错误消息中使用行号定位时候非常有用：

def parser_file(filename):
    with open(filename) as f:
        for line_no, line in enumerate(f):
            fields = line.split('=')
            try:
                count = int(fields[0])
                print(count)
            except ValueError as e:
                print("line {0} parse error:[{1}]".format(line_no, e))


def main():
    parser_file("test.txt")

if __name__ == '__main__':
    main()

enumerate() 函数返回的是一个enumerate 对象实例，它是一个迭代器，返回连续的包含一个计数和一个值的元组，元组中的值通过在传入序列上调用next() 返回。

还有一点可能并不很重要，但是也值得注意，有时候当你在一个已经解压后的元组序列上使用enumerate() 函数时很容易调入陷阱。你得像下面正确的方式这样写：

t_list = [(1, 2), (3, 4), (5, 6)]

# Error!
for i, x, y in enumerate(t_list, 1):
    print("{0}:({1}, {2})".format(i, x, y))

# Correct!
for i, (x, y) in enumerate(t_list, 1):
    print("{0}:({1}, {2})".format(i, x, y)

Python高级编程-itertoos模块

猜你喜欢