OCRテキスト検出モデル-SegLink

免責事項:この記事はブロガーオリジナル記事です、続くBY-SAのCC 4.0を著作権契約、複製、元のソースのリンクと、この文を添付してください。
このリンク: https://blog.csdn.net/wsp_1138886114/article/details/100042703


そのようなテキストがなど傾き、変形、角度などの複雑な状況、各種のに直面することになります検出するライトボックス看板、製品の包装、商標、など、など自然のシーンでは、あなたは学習の深さに基づいてメソッドを使用する必要がありますテキスト検出のために。
この方法は、水平方向に基づいて非水平テキスト検出のための効果は良くありません、そして自然のシーンでは、多くされているテキストCTPN検出効果に記載されている、テキストに自然なシーン検出で実現することができます特定の回転角度にすべてのテキスト情報は、例えば、図以下、道路標識上に携帯電話を使用します。無角情報にのみ、水平方向のテキストの検出の結果、あれば、次のチャートは、標識赤いボックス結果を検出し、実際には、緑色のボックスは、理想的なターゲット検出もエラー検出の目に見える結果です。

IMG

だから、どのようにそれを様々な角度を柔軟に検出できますか?最も簡単なアイデアの一つは、モデルが学習し、出力フレーム(X、Y、W、H)の位置だけでなく、出力回転角度パラメータθのテキストボックスはことができないだけにすることです。この記事を導入するSegLinkテキスト検出モデル、このアイデアは、以下に示すように、テキストの回転角度を検出する、すなわちSegLink検出モデルを採用しています。

IMG

まず、メインのアイデアSegLinkモデル

次のようにメイン検出プロセスモデルをSegLink:

IMG

1、イエローフレーム上に示すように、セグメント(スライス)がテキスト行(またはワード)の一部であり、セグメント(スライス)の最初の検出を生成するためには、文字、または単語または数文字であってもよいです

図2は、セグメントのテキスト(または単語)の同じ行に属するリンク(リンク)を介して(セクション)は、図中の緑の線の上に、接続されています。2つの重複セグメント内のリンク(リンク)は、図のように、中心点に接続されています。

IMG

3、通过合并算法,将这些segment(切片)、link(链接)合并成一个完整的文本行,得出完整文本行的检测框位置和旋转角度。

其中,**segment(切片)、link(链接)**是SegLink模型的创新之处,该模型不但学习了segment的位置信息,也学习了segment之间的link关系,以表示是否属于同一文本行(或者单词)。

二、SegLink模型的网络结构

SegLink模型的网络结构如下:

IMG

该模型以VGG16作为网络的主要骨干,将其中的全连接层(fc6, fc7)替换成卷积层(conv6, conv7),后面再接上4个卷积层(conv8, conv9, conv10, conv11),其中,将conv4_3,conv7,conv8_2,conv9_2,conv10_2,conv11这6个层的feature map(特征图)拿出来做卷积得到segments(切片)和links(链接)。这6个层的feature map(特征图)尺寸是不同的,每一层的尺寸只有前一层的一半,从这6个不同尺寸的层上得到segment和link,就可以实现对不同尺寸文本行的检测了(大的feature map擅长检测小物体,小的feature map擅长检测大物体)。

1、segment检测

整个架构采取了SSD的思路,在segment(切片)检测上,与SSD模型检测过程类似,通过“套框”的方式,对结果进行回归,每个feature map(特征图)经过卷积后输出的通道数为7,其中两个表示segment是否为文字的置信度值为(0, 1),剩下的五个为segment相对于对应位置的default box的五个偏移量。每个segment表示为:

IMG

2、link检测

在segment与segment的link(链接)方面,主要存在两种情况,一种是层内链接检测、另一种是跨层链接检测。如下图:

IMG

各セグメント及びセグメント8近傍のリンク層接続状態を検出し、同じ機能の内層は、各リンクは、2つのスコアを有し正のスコア、負のスコア、同じ正のスコアに属する両方のテキストを示すが(接続します);負のスコアが、両方が切断される別のテキスト()に属する示します。特徴マップの2つの隣接する層は、この層に加えて、あるセグメント後ろ隣に主に異なる層に同一のテキストの問題セグメントを解決するために、架橋層の検出、重複検出の結果、検出され、冗長性、隣人外層は、フロント層は、その隣人を持っていますが、マージアルゴリズムは、この冗長性を排除する後層は、前の層の隣人ではありません。

3、マージアルゴリズム

私たちは、次のようにマージアルゴリズムがあると思いました:

  • 同じライン上のセグメントを取り出します
  • これらは、直線最小二乗線形回帰のようなセグメントの中心点であります
  • 垂直行う投影この線の中心点に向かって各セグメント
  • (XP、YP)と呼ばれる全ての点の投影から最も遠い2点を、​​削除する(XQ、YQ)
  • 最終的なマージされたテキストボックス(1)の中心点((XP + XQ)/ 2、(YP + YQ)/ 2)は、2つの最も遠い点(XP、YP)、(の、(2)幅でありますXQ、YQ)を加えた距離の半分(WP / 2 + Wqと/ 2)セグメントの幅は、全てのセグメントの平均の高さ(3)高さ

以下に示すように、中間のオレンジ色の線は、線形最小二乗回帰を表し、赤い点がセグメントの中心点を示し、黄色の赤い点は、垂直射影の直線上の点を表し、上記後、緑色の境界は、本明細書に完全にマージアルゴリズム処理ブロックであります。

IMG

IIIの概要

SegLinkは堅牢であり、そして以下に示すように、主に、CTPN水平テキストラインを検出するために使用されるテキスト検出を様々な角度の検出角度を増加させます。

IMG

しかしながら、このモデルはまた、欠点を有する例えば広い間隔テキスト行を検出することができないリンクにより隣接するセグメント間を接続するために使用されるように、それはあまりにも遠くにテキストに影響を与えないであろう。最後に使用マージアルゴリズムのみ曲線にフィットする直線を当てはめる、方法を行う線形回帰であるが、変更を達成するために、アルゴリズムを組み合わせることによって修飾することができるので、テキストは、歪みや湾曲を検出することができません検出プロファイルテキスト。

おすすめ

転載: blog.csdn.net/wsp_1138886114/article/details/100042703