第十二节，使用带有全局平均池化层的CNN对CIFAR数据集分类(queue操作) 第十六节，卷积神经网络之AlexNet网络实现(六)

这里使用的数据集仍然是CIFAR-10，由于之前写过一篇使用AlexNet对CIFAR数据集进行分类的文章，已经详细介绍了这个数据集，当时我们是直接把这些图片的数据文件下载下来，然后使用pickle进行反序列化获取数据的，具体内容可以参考这里：第十六节，卷积神经网络之AlexNet网络实现(六)

与MNIST类似，TensorFlow中也有一个下载和导入CIFAR数据集的代码文件，不同的是，自从TensorFlow1.0之后，将里面的Models模块分离了出来，分离和导入CIFAR数据集的代码在models中，所以要先去TensorFlow的GitHub网站将其下载下来。点击下载地址开始下载。

一在TensorFlow中使用queue

TensorFlow提供了一个队列机制，通过多线程将读取数据与计算数据分开。因为在处理海量数据集的训练时，无法把数据集一次全部载入到内存中，需要一边从硬盘中读取，一边进行训练，为了加快训练速度，我们可以采用多个线程读取数据，一个线程消耗数据。

下面简要介绍一下，TensorFlow里与Queue有关的概念和用法。详细内容点击原文。

其实概念只有三个：

Queue是TF队列和缓存机制的实现
QueueRunner是TF中对操作Queue的线程的封装
Coordinator是TF中用来协调线程运行的工具

虽然它们经常同时出现，但这三样东西在TensorFlow里面是可以单独使用的，不妨先分开来看待。

1.Queue

据实现的方式不同，分成具体的几种类型，例如：

tf.FIFOQueue ：按入列顺序出列的队列
tf.RandomShuffleQueue ：随机顺序出列的队列
tf.PaddingFIFOQueue ：以固定长度批量出列的队列
tf.PriorityQueue ：带优先级出列的队列
... ...

这些类型的Queue除了自身的性质不太一样外，创建、使用的方法基本是相同的。

创建函数的参数：

tf.FIFOQueue(capacity, dtypes, shapes=None, names=None,
               shared_name=None, name="fifo_queue")

Queue主要包含 入列（enqueue）和 出列（dequeue）两个操作。队列本身也是图中的一个节点。其他节点（enqueue, dequeue）可以修改队列节点中的内容。enqueue操作返回计算图中的一个Operation节点，dequeue操作返回一个Tensor值。Tensor在创建时同样只是一个定义（或称为“声明”），需要放在Session中运行才能获得真正的数值。下面是一个单独使用Queue的例子：

#创建的图:一个先入先出队列,以及初始化,出队,+1,入队操作  
q = tf.FIFOQueue(3, "float")  
init = q.enqueue_many(([0.1, 0.2, 0.3],))  
x = q.dequeue()  
y = x + 1  
q_inc = q.enqueue([y])  
  
#开启一个session,session是会话,会话的潜在含义是状态保持,各种tensor的状态保持  
with tf.Session() as sess:  
    sess.run(init)  
  
    for i in range(2):  
            sess.run(q_inc)    
    quelen =  sess.run(q.size())  
    
    for i in range(quelen):  
            print (sess.run(q.dequeue()))

2. QueueRunner

之前的例子中，入队操作都在主线程中进行,Session中可以多个线程一起运行。在数据输入的应用场景中，入队操作从硬盘上读取,入队操作是从硬盘中读取输入，放到内存当中，速度较慢。使用QueueRunner可以创建一系列新的线程进行入队操作，让主线程继续使用数据。如果在训练神经网络的场景中，就是训练网络和读取数据是异步的，主线程在训练网络，另一个线程在将数据从硬盘读入内存。

'''
QueueRunner()的使用
'''
q = tf.FIFOQueue(10, "float")  
counter = tf.Variable(0.0)  #计数器
# 给计数器加一
increment_op = tf.assign_add(counter, 1.0)
# 将计数器加入队列
enqueue_op = q.enqueue(counter)

# 创建QueueRunner
# 用多个线程向队列添加数据
# 这里实际创建了4个线程，两个增加计数，两个执行入队
qr = tf.train.QueueRunner(q, enqueue_ops=[increment_op, enqueue_op] * 2)


#主线程  
with tf.Session() as sess:  
    sess.run(tf.initialize_all_variables())  
    #启动入队线程  
    enqueue_threads = qr.create_threads(sess, start=True)  
    #主线程  
    for i in range(10):              
        print (sess.run(q.dequeue()))

能正确输出结果，但是最后会报错，ERROR:tensorflow:Exception in QueueRunner: Session has been closed.也就是说,当循环结束后,该Session就会自动关闭，相当于main函数已经结束了。

'''
QueueRunner()的使用
'''
q = tf.FIFOQueue(10, "float")  
counter = tf.Variable(0.0)  #计数器
# 给计数器加一
increment_op = tf.assign_add(counter, 1.0)
# 将计数器加入队列
enqueue_op = q.enqueue(counter)

# 创建QueueRunner
# 用多个线程向队列添加数据
# 这里实际创建了4个线程，两个增加计数，两个执行入队
qr = tf.train.QueueRunner(q, enqueue_ops=[increment_op, enqueue_op] * 2)

'''

#主线程  
with tf.Session() as sess:  
    sess.run(tf.initialize_all_variables())  
    #启动入队线程  
    enqueue_threads = qr.create_threads(sess, start=True)  
    #主线程  
    for i in range(10):              
        print (sess.run(q.dequeue()))  

'''


  
# 主线程  
sess = tf.Session()  
sess.run(tf.initialize_all_variables())  
  
# 启动入队线程  
enqueue_threads = qr.create_threads(sess, start=True) 
  
# 主线程  
for i in range(0, 10):  
    print(sess.run(q.dequeue()))

不使用with tf.Session,那么Session就不会自动关闭。

并不是我们设想的1,2,3,4,本质原因是增加计数的进程会不停的后台运行，执行入队的进程会先执行10次（因为队列长度只有10），然后主线程开始消费数据，当一部分数据消费被后，入队的进程又会开始执行。最终主线程消费完10个数据后停止，但其他线程继续运行，程序不会结束。

经验：因为tensorflow是在图上进行计算，要驱动一张图进行计算，必须要送入数据，如果说数据没有送进去，那么sess.run()，就无法执行，tf也不会主动报错，提示没有数据送进去，其实tf也不能主动报错，因为tf的训练过程和读取数据的过程其实是异步的。tf会一直挂起，等待数据准备好。现象就是tf的程序不报错，但是一直不动，跟挂起类似。

'''
QueueRunner()的使用
'''
q = tf.FIFOQueue(10, "float")  
counter = tf.Variable(0.0)  #计数器
# 给计数器加一
increment_op = tf.assign_add(counter, 1.0)
# 将计数器加入队列
enqueue_op = q.enqueue(counter)

# 创建QueueRunner
# 用多个线程向队列添加数据
# 这里实际创建了4个线程，两个增加计数，两个执行入队
qr = tf.train.QueueRunner(q, enqueue_ops=[increment_op, enqueue_op] * 2)


#主线程  
with tf.Session() as sess:  
    sess.run(tf.initialize_all_variables())  
    #启动入队线程  
    enqueue_threads = qr.create_threads(sess, start=True)  
    #主线程  
    for i in range(10):              
        print (sess.run(q.dequeue()))

上图将生成数据的线程注释掉，程序就会卡在sess.run(q.dequeue())，等待数据的到来QueueRunner是用来启动入队线程用的。

3.Coordinator

Coordinator是个用来保存线程组运行状态的协调器对象，它和TensorFlow的Queue没有必然关系，是可以单独和Python线程使用的。例如：

'''
Coordinator
'''
import threading, time

# 子线程函数
def loop(coord, id):
    t = 0
    while not coord.should_stop():
        print(id)
        time.sleep(1)
        t += 1
        # 只有1号线程调用request_stop方法
        if (t >= 2 and id == 0):
            coord.request_stop()

# 主线程
coord = tf.train.Coordinator()
# 使用Python API创建10个线程
threads = [threading.Thread(target=loop, args=(coord, i)) for i in range(10)]

# 启动所有线程，并等待线程结束
for t in threads: t.start()
coord.join(threads)

将这个程序运行起来，会发现所有的子线程执行完两个周期后都会停止，主线程会等待所有子线程都停止后结束，从而使整个程序结束。由此可见，只要有任何一个线程调用了Coordinator的request_stop方法，所有的线程都可以通过should_stop方法感知并停止当前线程。

将QueueRunner和Coordinator一起使用，实际上就是封装了这个判断操作，从而使任何一个出现异常时，能够正常结束整个程序，同时主线程也可以直接调用request_stop方法来停止所有子线程的执行。

4.QueueRunner和Coordinator

在TensorFlow中用Queue的经典模式有两种，都是配合了QueueRunner和Coordinator一起使用的。

第一种，显式的创建QueueRunner，然后调用它的create_threads方法启动线程。例如下面这段代码：

'''
配合使用
'''
import numpy as np
# 1000个4维输入向量，每个数取值为1-10之间的随机数
data = 10 * np.random.randn(1000, 4) + 1
# 1000个随机的目标值，值为0或1
target = np.random.randint(0, 2, size=1000)

# 创建Queue，队列中每一项包含一个输入数据和相应的目标值
queue = tf.FIFOQueue(capacity=50, dtypes=[tf.float32, tf.int32], shapes=[[4], []])

# 批量入列数据（这是一个Operation）
enqueue_op = queue.enqueue_many([data, target])
# 出列数据（这是一个Tensor定义）
data_sample, label_sample = queue.dequeue()

# 创建包含4个线程的QueueRunner
qr = tf.train.QueueRunner(queue, [enqueue_op] * 4)

with tf.Session() as sess:
    # 创建Coordinator
    coord = tf.train.Coordinator()
    # 启动QueueRunner管理的线程
    enqueue_threads = qr.create_threads(sess, coord=coord, start=True)
    # 主线程，消费100个数据
    for step in range(100):
        if coord.should_stop():
            break
        data_batch, label_batch = sess.run([data_sample, label_sample])
    # 主线程计算完成，停止所有采集数据的进程
    coord.request_stop()
    coord.join(enqueue_threads)

第二种，使用全局的start_queue_runners方法启动线程。

'''
配合使用
'''
# 同时打开多个文件，显示创建Queue，同时隐含了QueueRunner的创建
filename_queue = tf.train.string_input_producer(["data1.csv","data2.csv"])
reader = tf.TextLineReader(skip_header_lines=1)
# Tensorflow的Reader对象可以直接接受一个Queue作为输入
key, value = reader.read(filename_queue)

with tf.Session() as sess:
    coord = tf.train.Coordinator()
    # 启动计算图中所有的队列线程
    threads = tf.train.start_queue_runners(coord=coord)
    # 主线程，消费100个数据
    for _ in range(100):
        features, labels = sess.run([data_batch, label_batch])
    # 主线程计算完成，停止所有采集数据的进程
    coord.request_stop()
    coord.join(threads)

在这个例子中，tf.train.string_input_produecer会将一个隐含的QueueRunner添加到全局图中（类似的操作还有tf.train.shuffle_batch等）。

由于没有显式地返回QueueRunner来用create_threads启动线程，这里使用了tf.train.start_queue_runners方法直接启动tf.GraphKeys.QUEUE_RUNNERS集合中的所有队列线程。

这两种方式在效果上是等效的。