OCRテキスト検出モデル-pixel_link

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/wsp_1138886114/article/details/100075578

I.はじめに

基づいてテキスト検出対象検出モデル:などCTPN、SegLink、EAST、これらのモデルは、学習の深さに依存し、テキスト検出のための自然なシーンにも適用することができる、主な手順は、テキストが決定され、テキストボックスの位置を与えられていないことです以下に示すように、角度:
ここに画像を挿入説明

今:テキスト検出古典的なモデル:位置PixelLink(接続された画素)のみ「カテゴリ」を使用する必要があり、/非テキスト、テキストボックスを、判定された達成可能なテキストと角度所与同時に。
githubのプロジェクト住所:https://github.com/ZJULearning/pixel_link

1、PixelLink全体的なフレームワーク

以下に示すようにフレーム全体をPixelLink:
ここに画像を挿入説明
モデル名PixelLink(接続された画素)から分かるように、このモデルは、2つの主要な部分がある:ピクセル(画素)、リンク(接続)。
分類予測接続(リンク)の方向が存在するかどうかPixelLink主に基づいてCNNネットワークは、(テキスト/非テキスト分類予測のある画素(ピクセル)、8つの近傍画素を行う、すなわち、上図の破線のボックス内図の熱8、)リンク8つの予測方向を表します。そして、このような通信ドメイン、異なるサイズのテキスト連結成分を取得し、その後、動作ノイズフィルタ、及び最終的に「互いに素なセット」(素集合データ構造)を介して、最終の操作に基づいて、OpenCVのminAreaRect(最小外接矩形)に基づきますテキストバウンディングボックス。

2、PixelLinkネットワーク構造

PixelLink的网络结构如下图所示:
PixelLinkネットワーク構造
PixelLink网络结构的骨干(backbone)采用VGG16作为特征提取器,将最后的全连接层fc6、fc7替换为卷积层,特征融合和像素预测的方式基于FPN思想(feature pyramid network,金字塔特征网络),即卷积层的尺寸依次减半,但卷积核的数量依次增倍,这种思想跟EAST模型的网络结构很像。
该模型结构有两个独立的头,一个用于文本/非文本预测(Text/non-text Prediction),另一个用于连接预测(Link Prediction),这两者都使用了Softmax,输出1x2=2通道(文本/非文本的分类)和8x2=16通道(8个邻域方向是否有连接的分类)。
在论文中作者给出了两种网络结构:PixelLink+VGG16 2s和PixelLink+VGG16 4s 。其中conv2_2的feature map(特征图)大小为原图1/2,而conv3_3的feature map(特征图)大小为原图1/4,如果最后的输出部分是从conv2_2中汇聚出来,则为PixelLink+VGG16 2s,如果是从conv3_3中汇聚出来,则为PixelLink+VGG16 4s。

3、PixelLink实现过程

(1)Pixel定义

Pixel(像素)分为正像素(positive)、负像素(negative)。所有落在文本区域内的像素标记为正像素(positive),文本区域以外的像素标记为负像素(negative),多个文本交叠区域也标记为负像素(negative)。

(2)Link定义

Link是由两个Pixel双向决定的,对于一个给定的像素以及其临近的八个像素点,如果:
两个像素都是正像素(positive),则它们之间的Link为正连接(positive)
如果一个像素是正像素,另一个是负像素,则它们之间的Link也为正连接(positive)
如果两个像素都是负像素,则它们之间的Link为负连接(negative)

(3)实例分割

对于Pixel(像素)、Link(连接)的预测结果,通过设定两个不同的阈值得到pixel positive集合和link positive集合(如超过指定阈值,则判为positive,否则为negative),使用正连接将正像素分组在一起,产生CCs(conected compoents,连通域)集合,集合中的每个元素代表的就是文本实例,每个CC就表示检测到的文本实例,这就实现了文本的实例分割,如下图:

IMG
(4)提取文本框

通过对CC(连通域)集合使用OpenCV的连通域方法minAreaRect获得最终的连通域,此时每个连通域都有自己的最小外接矩形,最后使用disjoint-set(并查集)方法形成最终的文本框,并查集主要用于将具有某种关联关系的集合进行合并的操作方法,如下图对集合的合并处理:

IMG

从这一步可以看出,文本边界框是直接从实例分割获得的,并不是通过位置回归获得的,这是跟其它检测方法的区别。另外,对文本的方向没有限制,也即可实现多角度的检测。

(5)去除噪声

由于使用基于连通域的方法进行文本像素汇聚,该方法对噪声比较敏感,最终会产生一些比较小的错误连通域,因此,通过对长度、宽度、面积、长宽比等信息,根据一定的阈值进行去除处理。具体方法是,选择训练数据集中排在99%位的作为阈值,例如在IC15数据集中99%的文本实例短边≥10像素,99%的文本域面积≥300像素,因此,将短边小于10像素或面积小于300像素的当作错误连通域进行去除。

4、PixelLink检测效果

IC15データセットの検出結果に基づいて、次のように
IMG
見ることができるように、リコールにPixelLink(R)、精度(P)、F値(F)EAST、SegLinkの効果よりも良好であるため、そのようなCTPN方法
以下に示す、検出結果をPixelLink、それが複数の角度のテキスト検出をサポートしています。

IMG

5、要約

(1)PixelLinkセグメンテーション純粋なアイデアを使用して、使用しないターゲット検出方法は、回帰法を用いてバウンディングボックスを放棄しないが、例えば、セグメンテーションのために、次いで直接バウンディングボックスを生成します。分類タスクにPixelLink完全に変換され、この利点は、より良い、より速く訓練を、学ぶことが容易トレーニングです。

(2)PixelLink法、画素のみ(図フィーチャ)特徴マップとその隣接画素は各ニューロンの状態が大きな感情を必要としない、独自の近傍を検出するための唯一の原因であると予測しました野生のは、反復回数を減らすために、そのため、より簡単に学ぶために、この情報を、以下の受容野の要件とを学ぶことができるようになります。しかし、また、(はるかに少ないのリンクため)結果が離れすぎて単語と単語のテキストの間に検出することはできませんされています。

(3)直接ザビエルによって、(ニューラルネットワークの初期化に非常に効果的な方法を)事前に訓練されたモデルを採用する必要はないネットワークVGGがランダムに初期化され、訓練プロセスは、データが多すぎる、反復比較的少数を必要としません。

(4)このメソッドは、直接画像に、端にテキスト検出端に適しており、検出結果が得られました。

おすすめ

転載: blog.csdn.net/wsp_1138886114/article/details/100075578