这里使用的数据集仍然是CIFAR-10,由于之前写过一篇使用AlexNet对CIFAR数据集进行分类的文章,已经详细介绍了这个数据集,当时我们是直接把这些图片的数据文件下载下来,然后使用pickle进行反序列化获取数据的,具体内容可以参考这里:第十六节,卷积神经网络之AlexNet网络实现(六)
与MNIST类似,TensorFlow中也有一个下载和导入CIFAR数据集的代码文件,不同的是,自从TensorFlow1.0之后,将里面的Models模块分离了出来,分离和导入CIFAR数据集的代码在models中,所以要先去TensorFlow的GitHub网站将其下载下来。点击下载地址开始下载。
一 在TensorFlow中使用queue
TensorFlow提供了一个队列机制,通过多线程将读取数据与计算数据分开。因为在处理海量数据集的训练时,无法把数据集一次全部载入到内存中,需要一边从硬盘中读取,一边进行训练,为了加快训练速度,我们可以采用多个线程读取数据,一个线程消耗数据。
下面简要介绍一下,TensorFlow里与Queue有关的概念和用法。详细内容点击原文。
其实概念只有三个:
Queue
是TF队列和缓存机制的实现QueueRunner
是TF中对操作Queue的线程的封装Coordinator
是TF中用来协调线程运行的工具
虽然它们经常同时出现,但这三样东西在TensorFlow里面是可以单独使用的,不妨先分开来看待。
1.Queue
据实现的方式不同,分成具体的几种类型,例如:
- tf.FIFOQueue :按入列顺序出列的队列
- tf.RandomShuffleQueue :随机顺序出列的队列
- tf.PaddingFIFOQueue :以固定长度批量出列的队列
- tf.PriorityQueue :带优先级出列的队列
- ... ...
这些类型的Queue除了自身的性质不太一样外,创建、使用的方法基本是相同的。
创建函数的参数:
tf.FIFOQueue(capacity, dtypes, shapes=None, names=None, shared_name=None, name="fifo_queue")
#创建的图:一个先入先出队列,以及初始化,出队,+1,入队操作 q = tf.FIFOQueue(3, "float") init = q.enqueue_many(([0.1, 0.2, 0.3],)) x = q.dequeue() y = x + 1 q_inc = q.enqueue([y]) #开启一个session,session是会话,会话的潜在含义是状态保持,各种tensor的状态保持 with tf.Session() as sess: sess.run(init) for i in range(2): sess.run(q_inc) quelen = sess.run(q.size()) for i in range(quelen): print (sess.run(q.dequeue()))
2. QueueRunner
之前的例子中,入队操作都在主线程中进行,Session中可以多个线程一起运行。 在数据输入的应用场景中,入队操作从硬盘上读取,入队操作是从硬盘中读取输入,放到内存当中,速度较慢。 使用QueueRunner
可以创建一系列新的线程进行入队操作,让主线程继续使用数据。如果在训练神经网络的场景中,就是训练网络和读取数据是异步的,主线程在训练网络,另一个线程在将数据从硬盘读入内存。
''' QueueRunner()的使用 ''' q = tf.FIFOQueue(10, "float") counter = tf.Variable(0.0) #计数器 # 给计数器加一 increment_op = tf.assign_add(counter, 1.0) # 将计数器加入队列 enqueue_op = q.enqueue(counter) # 创建QueueRunner # 用多个线程向队列添加数据 # 这里实际创建了4个线程,两个增加计数,两个执行入队 qr = tf.train.QueueRunner(q, enqueue_ops=[increment_op, enqueue_op] * 2) #主线程 with tf.Session() as sess: sess.run(tf.initialize_all_variables()) #启动入队线程 enqueue_threads = qr.create_threads(sess, start=True) #主线程 for i in range(10): print (sess.run(q.dequeue()))
能正确输出结果,但是最后会报错,ERROR:tensorflow:Exception in QueueRunner: Session has been closed.也就是说,当循环结束后,该Session就会自动关闭,相当于main函数已经结束了。
''' QueueRunner()的使用 ''' q = tf.FIFOQueue(10, "float") counter = tf.Variable(0.0) #计数器 # 给计数器加一 increment_op = tf.assign_add(counter, 1.0) # 将计数器加入队列 enqueue_op = q.enqueue(counter) # 创建QueueRunner # 用多个线程向队列添加数据 # 这里实际创建了4个线程,两个增加计数,两个执行入队 qr = tf.train.QueueRunner(q, enqueue_ops=[increment_op, enqueue_op] * 2) ''' #主线程 with tf.Session() as sess: sess.run(tf.initialize_all_variables()) #启动入队线程 enqueue_threads = qr.create_threads(sess, start=True) #主线程 for i in range(10): print (sess.run(q.dequeue())) ''' # 主线程 sess = tf.Session() sess.run(tf.initialize_all_variables()) # 启动入队线程 enqueue_threads = qr.create_threads(sess, start=True) # 主线程 for i in range(0, 10): print(sess.run(q.dequeue()))
不使用with tf.Session,那么Session就不会自动关闭。
并不是我们设想的1,2,3,4,本质原因是增加计数的进程会不停的后台运行,执行入队的进程会先执行10次(因为队列长度只有10),然后主线程开始消费数据,当一部分数据消费被后,入队的进程又会开始执行。最终主线程消费完10个数据后停止,但其他线程继续运行,程序不会结束。
经验:因为tensorflow是在图上进行计算,要驱动一张图进行计算,必须要送入数据,如果说数据没有送进去,那么sess.run(),就无法执行,tf也不会主动报错,提示没有数据送进去,其实tf也不能主动报错,因为tf的训练过程和读取数据的过程其实是异步的。tf会一直挂起,等待数据准备好。现象就是tf的程序不报错,但是一直不动,跟挂起类似。
''' QueueRunner()的使用 ''' q = tf.FIFOQueue(10, "float") counter = tf.Variable(0.0) #计数器 # 给计数器加一 increment_op = tf.assign_add(counter, 1.0) # 将计数器加入队列 enqueue_op = q.enqueue(counter) # 创建QueueRunner # 用多个线程向队列添加数据 # 这里实际创建了4个线程,两个增加计数,两个执行入队 qr = tf.train.QueueRunner(q, enqueue_ops=[increment_op, enqueue_op] * 2) #主线程 with tf.Session() as sess: sess.run(tf.initialize_all_variables()) #启动入队线程 enqueue_threads = qr.create_threads(sess, start=True) #主线程 for i in range(10): print (sess.run(q.dequeue()))
上图将生成数据的线程注释掉,程序就会卡在sess.run(q.dequeue()),等待数据的到来QueueRunner是用来启动入队线程用的。
3.Coordinator
Coordinator是个用来保存线程组运行状态的协调器对象,它和TensorFlow的Queue没有必然关系,是可以单独和Python线程使用的。例如:
''' Coordinator ''' import threading, time # 子线程函数 def loop(coord, id): t = 0 while not coord.should_stop(): print(id) time.sleep(1) t += 1 # 只有1号线程调用request_stop方法 if (t >= 2 and id == 0): coord.request_stop() # 主线程 coord = tf.train.Coordinator() # 使用Python API创建10个线程 threads = [threading.Thread(target=loop, args=(coord, i)) for i in range(10)] # 启动所有线程,并等待线程结束 for t in threads: t.start() coord.join(threads)
将这个程序运行起来,会发现所有的子线程执行完两个周期后都会停止,主线程会等待所有子线程都停止后结束,从而使整个程序结束。由此可见,只要有任何一个线程调用了Coordinator的request_stop
方法,所有的线程都可以通过should_stop
方法感知并停止当前线程。
将QueueRunner和Coordinator一起使用,实际上就是封装了这个判断操作,从而使任何一个出现异常时,能够正常结束整个程序,同时主线程也可以直接调用request_stop
方法来停止所有子线程的执行。
4.QueueRunner和Coordinator
在TensorFlow中用Queue的经典模式有两种,都是配合了QueueRunner和Coordinator一起使用的。
第一种,显式的创建QueueRunner,然后调用它的create_threads
方法启动线程。例如下面这段代码:
''' 配合使用 ''' import numpy as np # 1000个4维输入向量,每个数取值为1-10之间的随机数 data = 10 * np.random.randn(1000, 4) + 1 # 1000个随机的目标值,值为0或1 target = np.random.randint(0, 2, size=1000) # 创建Queue,队列中每一项包含一个输入数据和相应的目标值 queue = tf.FIFOQueue(capacity=50, dtypes=[tf.float32, tf.int32], shapes=[[4], []]) # 批量入列数据(这是一个Operation) enqueue_op = queue.enqueue_many([data, target]) # 出列数据(这是一个Tensor定义) data_sample, label_sample = queue.dequeue() # 创建包含4个线程的QueueRunner qr = tf.train.QueueRunner(queue, [enqueue_op] * 4) with tf.Session() as sess: # 创建Coordinator coord = tf.train.Coordinator() # 启动QueueRunner管理的线程 enqueue_threads = qr.create_threads(sess, coord=coord, start=True) # 主线程,消费100个数据 for step in range(100): if coord.should_stop(): break data_batch, label_batch = sess.run([data_sample, label_sample]) # 主线程计算完成,停止所有采集数据的进程 coord.request_stop() coord.join(enqueue_threads)
第二种,使用全局的start_queue_runners
方法启动线程。
''' 配合使用 ''' # 同时打开多个文件,显示创建Queue,同时隐含了QueueRunner的创建 filename_queue = tf.train.string_input_producer(["data1.csv","data2.csv"]) reader = tf.TextLineReader(skip_header_lines=1) # Tensorflow的Reader对象可以直接接受一个Queue作为输入 key, value = reader.read(filename_queue) with tf.Session() as sess: coord = tf.train.Coordinator() # 启动计算图中所有的队列线程 threads = tf.train.start_queue_runners(coord=coord) # 主线程,消费100个数据 for _ in range(100): features, labels = sess.run([data_batch, label_batch]) # 主线程计算完成,停止所有采集数据的进程 coord.request_stop() coord.join(threads)
在这个例子中,tf.train.string_input_produecer
会将一个隐含的QueueRunner添加到全局图中(类似的操作还有tf.train.shuffle_batch
等)。
由于没有显式地返回QueueRunner来用create_threads启动线程,这里使用了tf.train.start_queue_runners
方法直接启动tf.GraphKeys.QUEUE_RUNNERS
集合中的所有队列线程。
这两种方式在效果上是等效的。