文章目录

Python的for循环

for循环示例

List 列表循环
dict 字典循环
列表生成式

生成器

列表式生成器
函数式生成器
生成器式生产者消费者模型

迭代器

什么是迭代器
再论for循环
迭代器对象的使用

Python的for循环、迭代器、生成器有必要记录一下，学习Python的生成器时候，头一次见到函数可以这么写，后来了解到貌似用yield关键字后，函数不再是函数了，运行方式也很有意思，因此有必要详细记录一下。貌似用yield做生成器后可以实现伪多线程。既然要写生成器，就要把来龙去脉写清楚，让自己理解的更加透彻；这三者自我感觉是相关联的，这篇文章就把它们说清楚。

Python的for循环

Python for循环可以遍历任何可序列的对象，格式是：for … in …

第一个 … 中表示循环的变量，变量可以有多个，只要是后面对象中可以序列的变量就行，但是一般最多就2个，迄今为止我还没有看到3个的
第二个 … 中表示循环的对象，要求此对象可以序列化
Python的for循环抽象程度要高于C的for循环，因为Python的for循环不仅可以用在list或tuple上，还可以作用在其他可迭代对象上。list这种数据类型虽然有下标，但很多其他数据类型是没有下标的，但是只要是可迭代对象，无论有无下标，都可以用for循环迭代。

for循环示例

List 列表循环

names = ['Michael', 'Bob', 'Tracy']
for name in names:
    print(name)
    
#执行这段代码，会依次打印names的每一个元素：
Michael
Bob
Tracy

sum = 0
for x in [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]:
    sum = sum + x
print(sum)
#如果要计算1-100的整数之和，从1写到100有点困难，Python提供一个range()函数，可以生成一个整数序列
sum = 0
for x in range(100):
    sum = sum + x
print(sum)

dict 字典循环

Python字典，dict全称dictionary，在其他语言中也称为map，使用键-值（key-value）存储，具有极快的查找速度。
这种key-value存储方式，在放进去的时候，必须根据key算出value的存放位置，这样取的时候才能根据key直接拿到value；
请务必注意，dict内部存放的顺序和key放入的顺序是没有关系的，虽然我们循环字典的时候，貌似是按照字典写入顺序输出的，这是因为Python3在内部为我们做了优化，Python2 可就不好说了，尤其是当字典存储大量数据时。
和list比较，dict有以下几个特点：

查找和插入的速度极快，不会随着key的增加而变慢；
需要占用大量的内存，内存浪费多。

而list相反：

查找和插入的时间随着元素的增加而增加；
占用空间小，浪费内存很少。

所以，dict是用空间来换取时间的一种方法。
dict可以用在需要高速查找的很多地方，在Python代码中几乎无处不在，正确使用dict非常重要，需要牢记的第一条就是dict的key必须是不可变对象。
这是因为dict根据key来计算value的存储位置，如果每次计算相同的key得出的结果不同，那dict内部就完全混乱了。这个通过key计算位置的算法称为哈希算法（Hash）。
要保证hash的正确性，作为key的对象就不能变。在Python中，字符串、整数等都是不可变的，因此，可以放心地作为key。而list是可变的，就不能作为key

#循环遍历字典的key
>>> a={'a': '1', 'b': '2', 'c': '3'}
>>> for key in a:
       print(key+':'+a[key])
a:1
b:2
c:3
>>> for key in a.keys():
       print(key+':'+a[key])
a:1
b:2
c:3

#循环遍历字典的value
>>> for value in a.values():
       print(value)
1
2
3
#循环遍历字典项
>>> a={'a': '1', 'b': '2', 'c': '3'}
>>> for kv in a.items():
...        print(kv)
... 
('a', '1')
('c', '3')
('b', '2')

#循环遍历字典key-value
>>> for key,value in a.items():
       print(key+':'+value)
a:1
b:2
c:3
>>> for (key,value) in a.items():
       print(key+':'+value)
a:1
b:2
c:3

列表生成式

列表生成式主要使用for循环来生成一个列表，for循环包含列表中每一个元素的生成规则

# 要生成list [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]可以用list(range(1, 11))
>>> list(range(1, 11))
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# 如果要生成[1x1, 2x2, 3x3, ..., 10x10]怎么做？
>>> L = []
>>> for x in range(1, 11):
...    L.append(x * x)
...
>>> L
[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
# 采用列表生成式
>>> [x * x for x in range(1, 11)]
[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

# for循环后面还可以加上if判断，这样我们就可以筛选出仅偶数的平方
>>> [x * x for x in range(1, 11) if x % 2 == 0]
[4, 16, 36, 64, 100]

# 使用两层循环，可以生成全排列
>>> [m + n for m in 'ABC' for n in 'XYZ']
['AX', 'AY', 'AZ', 'BX', 'BY', 'BZ', 'CX', 'CY', 'CZ']

>>> import os 
>>> [d for d in os.listdir('.')] # os.listdir可以列出文件和目录
['.ssh', '.Trash', 'Applications', 'Desktop', 'Documents', 'Downloads', 'Movies', 'Pictures']

# 列表生成式也可以使用两个变量来生成list
>>> d = {'x': 'A', 'y': 'B', 'z': 'C' }
>>> [k + '=' + v for k, v in d.items()]
['y=B', 'x=A', 'z=C']

# 把一个list中所有的字符串变成小写
>>> L = ['Hello', 'World', 'IBM', 'Apple']
>>> [s.lower() for s in L]
['hello', 'world', 'ibm', 'apple']

生成器

通过列表生成式，直接创建一个列表；但是受到内存限制，列表容量肯定是有限的；创建一个包含100万个元素的列表，估计还没有这么大内存设备，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。
所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这种一边循环一边计算的机制，称为生成器：generator。
我学到的有两种生成器：列表是生成器、函数式生成器

列表式生成器

要创建一个列表式生成器generator，很简单，只要把一个列表生成式的[]改成()，就创建了一个generator

>>> L = [x * x for x in range(5)]
>>> L
[0, 1, 4, 9, 16, 25]
>>> g = (x * x for x in range(5))
>>> g
<generator object <genexpr> at 0x1022ef630>

创建L和g的区别仅在于最外层的[]和()，L是一个list，而g是一个generator
我们可以直接打印出list的每一个元素，但我们怎么打印出generator的每一个元素呢？
如果要一个一个打印出来，可以通过next()函数获得generator的下一个返回值：

>>> next(g)
0
>>> next(g)
1
>>> next(g)
4
>>> next(g)
9
>>> next(g)
16
>>> next(g)
25
>>> next(g)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration
# generator保存的是算法，每次调用next(g)，就计算出g的下一个元素的值，
# 直到计算到最后一个元素，没有更多的元素时，抛出StopIteration的错误

上面这种不断调用next(g)实在是太变态了，正确的方法是使用for循环，因为generator也是可迭代对象

扫描二维码关注公众号，回复： 4712549 查看本文章

>>> g = (x * x for x in range(10))
>>> for n in g:
...     print(n)
... 
0
1
4
9
16
25
# 所以，创建了一个generator后，基本上永远不会调用next()，而是通过for循环来迭代它，并且不需要关心StopIteration的错误。

函数式生成器

如果推算的算法比较复杂，用类似列表生成式的for循环无法实现的时候，还可以用函数来实现。
著名的斐波拉契数列（Fibonacci），就无法用for循环列表生成式实现，除第一个和第二个数外，任意一个数都可由前两个数相加得到，可用函数式生成器实现：

# 波拉契数列用列表生成式写不出来，但是用函数把它打印出来却很容易：
def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        print(b)
        a, b = b, a + b
        n = n + 1
    return 'done'
# 注意，赋值语句：
# a, b = b, a + b
# 相当于：
# t = (b, a + b) # t是一个tuple
# a = t[0]
# b = t[1]
# 不必显式写出临时变量t就可以赋值

可以看出，fib函数实际上是定义了斐波拉契数列的推算规则，从第一个元素开始，推算出后续任意的元素，这种逻辑其实非常类似generator。
上面的函数和generator仅一步之遥。要把fib函数变成generator，只需要把print(b)改为yield b就可以了

def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        yield b
        a, b = b, a + b
        n = n + 1
    return 'done'
# 定义g函数式enerator的方法：如果一个函数定义中包含yield关键字，那么这个函数就不再是一个普通函数，而是一个generator
>>> f = fib(6)
>>> f
<generator object fib at 0x104feaaa0>

这里，最难理解的就是generator和函数的执行流程不一样。函数是顺序执行，遇到return语句或者最后一行函数语句就返回。而变成generator的函数，在每次调用next()的时候执行，遇到yield语句返回，再次执行时从上次返回的yield语句处继续执行。
想想，Python解释器是怎么做到的
举个简单的例子，定义一个generator，依次返回数字1，3，5：

def odd():
    print('step 1')
    yield 1
    print('step 2')
    yield(3)
    print('step 3')
    yield(5)
# 调用该generator时，首先要生成一个generator对象，然后用next()函数不断获得下一个返回值：
>>> o = odd()
>>> next(o)
step 1
1
>>> next(o)
step 2
3
>>> next(o)
step 3
5
>>> next(o)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration

可以看到，odd不是普通函数，而是generator，在执行过程中，遇到yield就中断，下次又继续执行。执行3次yield后，已经没有yield可以执行了，所以，第4次调用next(o)就报错。
回到fib的例子，我们在循环过程中不断调用yield，就会不断中断。当然要给循环设置一个条件来退出循环，不然就会产生一个无限数列出来。
同样的，把函数改成generator后，我们基本上从来不会用next()来获取下一个返回值，而是直接使用for循环来迭代：

>>> for n in fib(6):
...     print(n)
...
1
1
2
3
5
8

但是用for循环调用generator时，发现拿不到generator的return语句的返回值。如果想要拿到返回值，必须捕获StopIteration错误，返回值包含在StopIteration的value中：

>>> g = fib(6)
>>> while True:
...     try:
...         x = next(g)
...         print('g:', x)
...     except StopIteration as e:
...         print('Generator return value:', e.value)
...         break
...
g: 1
g: 1
g: 2
g: 3
g: 5
g: 8
Generator return value: done

生成器式生产者消费者模型

生成器yiled关键字即可以有返回值，还可以接收值；利用这个特性，可以做到单线程下，实现并行效果
生成器对象的方法：

send()：恢复生成器在上一次yiled关键字暂停时，继续运行，同时yiled关键字还可以接收send函数传送的参数
__next()__：生成器继续运行到下一次的yiled关键字处，暂停

import time
def consumer(name):
    print("%s consumer is ready!" %name)
    while True:
       p = yield
       print("product [%s] is comming,received by [%s]!" %(p, name))
       
def producer(name, g_consumer):  
    g_consumer.__next__()
    print("producer %s is ready!"%name)
    for i in range(5):
        time.sleep(1)
        print("producer %s get new product %s"%(name, i))
        g_consumer.send(i)
        
c1 = consumer('A')
producer("luke",c1)
'''
程序运行结果：
A consumer is ready!
producer luke is ready!
producer luke get new product 0
product [0] is comming,received by [A]!
producer luke get new product 1
product [1] is comming,received by [A]!
producer luke get new product 2
product [2] is comming,received by [A]!
producer luke get new product 3
product [3] is comming,received by [A]!
producer luke get new product 4
product [4] is comming,received by [A]!
'''

迭代器

什么是迭代器

迭代是一个重复的过程，每次重复即一次迭代，并且每次迭代的结果都是下一次迭代的初始值，

为何要有迭代器：对于序列类型：字符串、列表、元组，我们可以使用索引的方式迭代取出其包含的元素；但对于字典、集合、文件等类型是没有索引的，若还想取出其内部包含的元素，则必须找出一种不依赖于索引的迭代方式，这就是迭代器
什么是可迭代对象：可迭代对象指的是内置有__iter__()方法的对象，即obj.__iter__()
什么是迭代器对象：可迭代对象执行obj.__iter__()得到的结果就是迭代器对象；而迭代器对象指的是即内置有__iter__又内置有__next__方法的对象。
文件类型是迭代器对象
open('a.txt').__iter__()
open('a.txt').__next__()

优点：

提供一种统一的、不依赖于索引的迭代方式
惰性计算，节省内存

缺点：

无法获取长度（只有在next完毕才知道到底有几个值）
一次性的，只能往后走，不能往前退

再论for循环

for循环的工作原理：

1、执行in后对象的dic.__iter__()方法，得到一个迭代器对象iter_dic
2、执行next(iter_dic)，将得到的值赋值给k,然后执行循环体代码
3、重复过程2，直到捕捉到异常StopIteration，结束循环

可以直接作用于for循环的数据类型有以下几种：

一类是集合数据类型，如list、tuple、dict、set、str等；
一类是生成器generator，包括生成器和带yield的generator function。

这些可以直接作用于for循环的对象统称为可迭代对象：Iterable。可以使用isinstance()判断一个对象是否是Iterable对象：

>>> from collections import Iterable
>>> isinstance([], Iterable)
True
>>> isinstance({}, Iterable)
True
>>> isinstance('abc', Iterable)
True
>>> isinstance((x for x in range(10)), Iterable)
True
>>> isinstance(100, Iterable)
False

生成器不但可以作用于for循环，还可以被next()函数不断调用并返回下一个值，直到最后抛出StopIteration错误表示无法继续返回下一个值了。

可以被next()函数调用并不断返回下一个值的对象称为迭代器：Iterator。
可以使用isinstance()判断一个对象是否是Iterator对象：

>>> from collections import Iterator
>>> isinstance((x for x in range(10)), Iterator)
True
>>> isinstance([], Iterator)
False
>>> isinstance({}, Iterator)
False
>>> isinstance('abc', Iterator)
False

迭代器对象的使用

dic={'a':1,'b':2,'c':3}
iter_dic=dic.__iter__() 
#得到迭代器对象，迭代器对象即有__iter__又有__next__，但是：迭代器.__iter__()得到的仍然是迭代器本身
iter_dic.__iter__() is iter_dic #True

print(iter_dic.__next__()) #等同于next(iter_dic)
print(iter_dic.__next__()) #等同于next(iter_dic)
print(iter_dic.__next__()) #等同于next(iter_dic)
# print(iter_dic.__next__()) #抛出异常StopIteration，或者说结束标志

#有了迭代器，我们就可以不依赖索引迭代取值了
iter_dic=dic.__iter__()
while 1:
    try:
        k=next(iter_dic)
        print(dic[k])
    except StopIteration:
        break
#这么写太麻烦了，需要我们自己捕捉异常，控制next，for循环这么牛逼，干嘛不用for循环呢
#基于for循环，我们可以完全不再依赖索引去取值了
dic={'a':1,'b':2,'c':3}
for k in dic:
    print(dic[k])

由for循环开始，绕了一圈又回到了for循环，中间引申出列表生成式、生成器、迭代器，它们之间的关系我已经写完了，感觉自己又进步一点了，再接再厉。

Python学习——for循环，生成器，迭代器详解