SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder Network

本文是一个端到端的场景文本识别方案，但其实还是stage-wise的方案。整个framework分为两个stage。

B-CEDNet，binary convolutional encoder-decoder network，二进制的卷积编解码网络，这个网络是用来做文字区域的detection的，不同其他方案的地方就是，它采用的是二进制网络，好处就是模型参数经过高度压缩，减小了存储和加快了inference过程。
Bi-RNN，bidirectional recurrent neural network，双向循环网络。这个网络是用作文字序列的识别的。

经过百万合成图片的训练，B-CEDNet在ICDAR-03和ICDAR-13上recall=0.86，precision=0.88，F-score=0.87.整个推断过程小于1ms。网络模型B-CEDNet只有1.01MB，Bi-RNN只有3.23MB，是现有方法中最小最快的。

ps：从abstract上来看，这个工作整体上并没有太多新的东西。binary的网络是之前NIPS 2016提出来的一种模型压缩方案，所以最终结果中模型才能达到那么小。而获得的“跑分”成绩，可以从3个方面考虑，1）是训练数据量大。2）是通常模型的压缩是具有一定正则化作用的，能提高网络泛化能力，往往会比原网络效果更好。3）测试数据集感觉还是比较小。

Introduction

本文贡献

实时的场景文本检测要求内存高效和快速处理，本文提出一个新的binary的encoder-decoder nn 模型。由于二进制压缩，可以高速实时inference，且memory consuption很小。
本文发现文本特征可以被编码成二进制格式，且无损语义推断信息。
进一步设计了双向RNN（Ri-RNN）进行快速的文字校正与分类。