【论文阅读】泛读《SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder》

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013095718/article/details/82799651

SqueezedText: A Real-Time Scene Text Recognition by Binary Convolutional Encoder-Decoder Network

本文是一个端到端的场景文本识别方案,但其实还是stage-wise的方案。整个framework分为两个stage。

  • B-CEDNet,binary convolutional encoder-decoder network,二进制的卷积编解码网络,这个网络是用来做文字区域的detection的,不同其他方案的地方就是,它采用的是二进制网络,好处就是模型参数经过高度压缩,减小了存储和加快了inference过程。
  • Bi-RNN,bidirectional recurrent neural network,双向循环网络。这个网络是用作文字序列的识别的。

经过百万合成图片的训练,B-CEDNet在ICDAR-03和ICDAR-13上recall=0.86,precision=0.88,F-score=0.87.整个推断过程小于1ms。网络模型B-CEDNet只有1.01MB,Bi-RNN只有3.23MB,是现有方法中最小最快的。

ps:从abstract上来看,这个工作整体上并没有太多新的东西。binary的网络是之前NIPS 2016提出来的一种模型压缩方案,所以最终结果中模型才能达到那么小。而获得的“跑分”成绩,可以从3个方面考虑,1)是训练数据量大。2)是通常模型的压缩是具有一定正则化作用的,能提高网络泛化能力,往往会比原网络效果更好。3)测试数据集感觉还是比较小。


Introduction

本文贡献

  • 实时的场景文本检测要求内存高效和快速处理,本文提出一个新的binary的encoder-decoder nn 模型。由于二进制压缩,可以高速实时inference,且memory consuption很小。
  • 本文发现文本特征可以被编码成二进制格式,且无损语义推断信息。
  • 进一步设计了双向RNN(Ri-RNN)进行快速的文字校正与分类。

Related Work

通常场景文本识别有两类方法

  • character-level,字符级解决方案,依赖于多尺度的滑动窗口去定位和识别字符。
  • word-level,词句级的解决方案,将文本识别看作图像分类问题。

Approach

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Experiments

在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/u013095718/article/details/82799651