Kapitel 6 von „Ausführliche Einführung in OCR“: OCR-Datensätze und Bewertungsindikatoren

1. Technischer OCR-Prozess

Beginnend mit der Einführung des OCR-Datensatzes werde ich Sie anleiten und den OCR-Technologieprozess überprüfen. Eine typische OCR-Technologie-Pipeline ist in der folgenden Abbildung dargestellt. Unter ihnen sind Texterkennung und -erkennung zwei wichtige Kerntechnologien der OCR-Technologie.

1.1 Bildvorverarbeitung:

Die Bildvorverarbeitung ist der erste Schritt im OCR-Prozess und dient der Verbesserung der Genauigkeit der Zeichenerkennung. Zu den gängigen Vorverarbeitungsvorgängen gehören Graustufen, Binärisierung und Rauschunterdrückung. Darüber hinaus können bei der Erkennung unregelmäßiger Texte Korrekturoperationen vor der Erkennung in der Vorverarbeitungsphase durchgeführt werden.

1.2 Texterkennung

Die Aufgabe der Texterkennung besteht darin, den Textbereich im Eingabebild zu lokalisieren.

Bild.png

1.3 Texterkennung

Die Aufgabe der Texterkennung besteht darin, den Textinhalt im Bild zu identifizieren.

Die allgemeine Eingabe für die Texterkennung erfolgt aus dem Bildtextbereich, der aus dem durch die Texterkennung erhaltenen Textfeld abgefangen wird. Die Texterkennung kann im Allgemeinen in zwei Kategorien unterteilt werden: normale Texterkennung und unregelmäßige Texterkennung basierend auf der Form des zu erkennenden Textes. Unregelmäßige Textszenen stellen eine große Herausforderung dar und sind derzeit die Hauptforschungsrichtung auf dem Gebiet der Texterkennung.

  • Normaler Text bezieht sich hauptsächlich auf gedruckte Schriftarten, gescannten Text usw. Der Text befindet sich ungefähr in der horizontalen Zeilenposition, wie in der linken Hälfte der folgenden Abbildung dargestellt.

  • Unregelmäßiger Text befindet sich häufig nicht in horizontaler Position und weist Probleme wie Biegung, Okklusion und Unschärfe auf, wie in der rechten Hälfte der Abbildung unten dargestellt.

Bild.png


2. Statistik und Klassifizierung von OCR-Datensätzen

2.1 Zusammenfassungsstatistik des Datensatzes

Im vorherigen Erkennungskapitel habe ich die Erkennungstechnologie in reguläre (horizontale) Texterkennung und unregelmäßige (multidirektionale) Texterkennung unterteilt. Nachfolgend fasse ich die gängigen OCR-Datensätze zusammen:

Fügen Sie hier eine Bildbeschreibung ein

Referenz: github.com/HCIILAB/Sce…

2.2 Einführung in Datensätze

Nach einer kurzen Zusammenfassung der oben genannten Datensätze werde ich mich auf eine detaillierte Einführung in die Datensätze konzentrieren, die mehrere Szenarien wie reguläre, unregelmäßige, synthetische und handgeschriebene Datensätze abdeckt. Abschließend werde ich die Erkennungseffekte jedes Erkennungsalgorithmus zusammenfassen auf verschiedenen Datensätzen und führen Sie umfassende horizontale Vergleiche durch.

2.1.1 Regeldatensatz

  • IIIT5K-Wörter (IIIT) 2000 für Zug; 3000 für den Test
  • Street View Text (SVT) 257 für Zug; 647 für Test
  • ICDAR 2003(IC03)、ICDAR2013(IC13)

Nehmen Sie ICDAR2013 als Beispiel:

Dieser Datensatz besteht aus etwa 500 natürlichen Szenenbildern, die auf Englisch mit Anmerkungen versehen sind. Das Koordinatenformat ist die obere linke Ecke und die untere rechte Ecke, und das Anmerkungsformat ist eine horizontale Zweipunktanmerkung.

Bild.png

2.1.2 Unregelmäßige Datensätze

  • ICDAR2015 (IC15) 4468 für Zug; 2077 für Test;
  • SVT-Perspektive (SP) 645 zum Testen
  • CUTE80 (CT) 288 für den Test

Nehmen Sie ICDAR2015 als Beispiel:

Dieser Datensatz besteht aus 1.500 (1.000 für das Training, 500 für Tests) natürlichen Szenenbildern, die auf Englisch kommentiert sind. Die Koordinatenformate sind obere linke Ecke, obere rechte Ecke, untere rechte Ecke und untere linke Ecke. Das Anmerkungsformat ist eine Vier-Punkt-Anmerkung . Wie nachfolgend dargestellt:

Bild.png

2.1.3 Synthetischer Datensatz

Synthetische Trainingsdatensätze

Datensatz Beschreibung Beispiele BaiduNetdisk-Link
SynthText(ST) 9 Millionen synthetische Textinstanzbilder aus einem Satz von 90.000 gebräuchlichen englischen Wörtern. Wörter werden mit zufälligen Transformationen auf natürliche Bilder übertragen Szenentext-Datensätze (Extraktionscode: emco)
MJSynth (MJ) 6 Millionen synthetische Textinstanzen. Es ist eine Generation von SynthText. Szenentext-Datensätze (Extraktionscode: emco)

Der am weitesten verbreitete Texterkennungsdatensatz ist SynthText (ST) , der im Bereich OCR als ImageNet bezeichnet werden kann. Dieser Datensatz wird von der Universität Oxford veröffentlicht. Der Datensatz wurde durch Synthese generiert und 8 Millionen Texte wurden manuell zu 800.000 Bildern hinzugefügt. Darüber hinaus handelt es sich bei dieser Synthese nicht um eine starre Überlagerung, sondern es wird eine gewisse Verarbeitung durchgeführt, um den Text in den Bildern natürlicher aussehen zu lassen. SynthText ist größer als die meisten anderen Datensätze, die nicht groß genug sind, um ein Modell zu trainieren. Daher basiert es normalerweise auf der Erkennung verschiedener Szenen wie Chinesisch, Englisch, Straßenansicht usw., wird zunächst mit SynthText trainiert und dann mit einem kleinen Datensatz verfeinert.

Github: github.com/ankush-me/S…

Das Beispieldiagramm von SynthText(ST) sieht wie folgt aus:

Bild.png

2.1.4 Chinesischer Szenendatensatz

Chinesischer Text in freier Wildbahn (CTW):

Bild.png

Der CTW-Datensatz ist ein Datensatz für chinesischen Szenentext, der für Texterkennungs- und -erkennungsaufgaben verwendet wird. Der CTW-Datensatz enthält mehr als 40.000 hochauflösende chinesische Szenenbilder, die aus verschiedenen Quellen und Umgebungen stammen und eine große Vielfalt aufweisen.

2.1.5 Handschriftdatensatz

Datensatz-Website: CASIA Online- und Offline-Datenbanken für chinesische Handschriften

Die oben genannte Website stellt Standarddatensätze zur Bewertung der Erkennung handschriftlicher chinesischer Schriftzeichen bereit, einschließlich Merkmalsdaten, die mit vorhandenen Merkmalsextraktionsalgorithmen generiert wurden, und Rohzeichenbeispieldaten. Die spezifischen Spezifikationen lauten wie folgt:

Bild.png

2.3. Detaillierte Einführung des Datensatzes

IC03 , IC13 und IC15 sind Datensätze für den Robust Reading Challenge-Wettbewerb ICDAR (International Conference on Document Analysis and Recognition) 2003/2013/2015. Jedes Bild im Datensatz stammt aus einer realen Szene und ist gut beschriftet. Allerdings sind die Proben relativ klein, insgesamt nur ein paar Tausend.

1.ICDAR-2013

  • Dateneinführung : Dieser Datensatz besteht aus 462 (Trainingssatz 229, Testsatz 233) englisch beschrifteten Naturszenenbildern. Das Beschriftungsformat ist eine horizontale Zweipunktbeschriftung und das Koordinatenformat ist die obere linke Ecke und die untere rechte Ecke:

Bild.png

2.ICDAR-2015

  • Dateneinführung : Dieser Datensatz besteht aus 1.500 (Trainingssatz 1.000, Testsatz 500) natürlichen Szenenbildern, die auf Englisch mit Anmerkungen versehen sind. Das Anmerkungsformat ist eine Vierpunktanmerkung. Das Koordinatenformat ist obere linke Ecke, obere rechte Ecke, untere rechte Ecke untere linke Ecke. Ecke, wie unten gezeigt:

Bild.png

3.ICDAR2017-MLT

  • Dateneinführung : Dieser Datensatz besteht aus 9.000 (Trainingssatz 7.200, Testsatz 1.800) natürlichen Szenenbildern, die in mehreren gemischten Sprachen mit Anmerkungen versehen sind. Das Anmerkungsformat ist eine Vierpunktanmerkung und das Koordinatenformat ist obere linke Ecke, obere rechte Ecke, rechts Ecke. Die untere Ecke und die untere linke Ecke, wie in der Abbildung unten gezeigt:

Bild.png

4.ICDAR2017-RCTW

  • Dateneinführung : ICDAR 2017-RCTW (Reading Chinest Text in the Wild), vorgeschlagen von Baoguang Shi und anderen Wissenschaftlern. RCTW ist hauptsächlich auf Chinesisch und enthält insgesamt 12.263 Bilder, darunter 8.034 Trainingssätze und 4.229 Testsätze. Das Anmerkungsformat ist eine Vier-Punkte-Anmerkung. Bei den meisten Datensätzen handelt es sich um von Kameras aufgenommene natürliche Szenen, bei einigen handelt es sich um Screenshots die meisten Szenen, wie z. B. Straßen im Freien, Innenszenen, Screenshots von Mobiltelefonen usw.

5. Tianchi-Wettbewerb 2018

  • Dateneinführung : Dieser Datensatz stammt ausschließlich aus Online-Bildern, die hauptsächlich aus synthetischen Bildern, Produktbeschreibungen und Online-Werbung bestehen. Jedes Bild enthält entweder ein komplexes Layout, dichten kleinen Text oder mehrsprachigen Text oder Wasserzeichen und typische Bilder, wie in Abbildung 1 dargestellt:

Bild.png

6.ICDAR2019-MLT

  • Dateneinführung : Dieser Datensatz besteht aus 20.000 (Trainingssatz 10.000 und Testsatz 10.000) natürlichen Szenenbildern, die in mehreren gemischten Sprachen mit Anmerkungen versehen sind. Das Anmerkungsformat ist Vierpunktanmerkung und das Koordinatenformat ist obere linke Ecke, obere rechte Ecke, rechts Ecke. untere und untere linke Ecke. 10.000 Bilder, die im Trainingssatz so angeordnet sind, dass: Alle 1000 aufeinanderfolgenden Bilder Text in einer Hauptsprache enthalten (natürlich kann er zusätzlichen Text aus 1 oder 2 anderen Sprachen enthalten, alle aus dem Satz von 10 Sprachen) 00001 – 01000: Arabisch 01001 – 02000: Englisch 02001 - 03000: Französisch 03001 - 04000: Chinesisch 04001 - 05000: Deutsch 05001 - 06000: Koreanisch 06001 - 07000: Japanisch 07001 - 08 000: Italienisch 08001 - 09000: Bangla 09001 - 10000: Hindi wie folgt Wie im gezeigt Figur:

Bild.png

7. ICDAR2019-LSVT

  • Dateneinführung : Dieser Datensatz besteht aus 450.000 chinesischen Street View-Bildern, darunter 50.000 (20.000 Testsätze + 30.000 Trainingssätze) vollständig annotierte Daten (Textkoordinaten + Textinhalt), 400.000 schwach annotierte Daten (nur Textinhalt), Anmerkungsformular Etikett vier Punkte, wie in der folgenden Abbildung dargestellt:

Bild.png

  • Hinweis : Unter diesen ist das Etikett des Testdatensatzes derzeit nicht Open Source. Wenn Sie die Ergebnisse auswerten müssen, können Sie sie an die offizielle Website senden: rrc.cvc.uab.es/?ch=16

8.ICDAR2019-ReCTS

  • Dateneinführung : Der ReCTS-Datensatz enthält 25.000 beschriftete Bilder, der Trainingssatz enthält 20.000 Bilder und der Testsatz enthält 5.000 Bilder. Die Bilder wurden vor Ort mit einer Telefonkamera unter unkontrollierten Bedingungen aufgenommen. Der Schwerpunkt liegt hauptsächlich auf chinesischen Texten auf Restaurantschildern. Jedes Bild im Datensatz ist mit Textzeilenpositionen, Zeichenpositionen und Transkripten von Textzeilen und Zeichen versehen. Beschriften Sie den Standort mit einem Polygon mit vier Eckpunkten, die im Uhrzeigersinn beginnend beim oberen linken Eckpunkt angeordnet sind. Wie nachfolgend dargestellt:

Bild.png

9.ICDAR2019-Art

  • Dateneinführung : Dieser Datensatz enthält 10.166 Bilder, darunter 5603 Bilder im Trainingssatz und 4563 Bilder im Testsatz. Es besteht aus drei Teilen: Total-Text, SCUT-CTW1500 und Baidu Curve Scene Text (ICDAR2019-LSVT teilweise gekrümmte Daten), einschließlich Text in verschiedenen Formen wie horizontal, multidirektional und gekrümmt. Wie nachfolgend dargestellt:

Bild.png

10.Synth800k

  • Dateneinführung : Der SynthText-Datensatz wurde 2016 von der Visual Geometry Group des Department of Engineering Sciences der Universität Oxford auf der IEEE Conference on Computer Vision and Pattern Recognition (CVPR) veröffentlicht. Der Datensatz besteht aus Bildern natürlicher Szenen, die Wörter enthalten. Er wird hauptsächlich zur Texterkennung in natürlichen Szenen verwendet. Der Datensatz besteht aus 800.000 Bildern und etwa 8 Millionen synthetischen Wortinstanzen. Jede Textinstanz ist mit Textzeichenfolgen und Begrenzungsrahmen auf Wort- und Zeichenebene versehen.

113,6 Millionen chinesische Datensätze

  • Dateneinführung : Dieser Datensatz verwendet den chinesischen Korpus (Nachrichten + klassisches Chinesisch), um durch Änderungen in Schriftart, Größe, Graustufen, Unschärfe, Perspektive und Dehnung usw. zufällig insgesamt etwa 3,64 Millionen Bilder zu generieren, und ist in Trainingssätze unterteilt und Verifizierung gemäß 99:1-Satz. Es enthält insgesamt 5990 Zeichen, einschließlich chinesischer Zeichen, englischer Buchstaben, Zahlen und Satzzeichen (Zeichensatz: github.com/YCG09/chine… ). Jedes Beispiel hat feste 10 Zeichen. Die Zeichen werden zufällig aus Sätzen im Korpus abgefangen. Die Bildauflösung ist auf 280x32 vereinheitlicht. Wie nachfolgend dargestellt:

Bild.png

12. Chinesischer Street View-Datensatz CTW

  • Dateneinführung : Dieser Datensatz enthält 32.285 Bilder, 1.018.402 chinesische Schriftzeichen (von Tencent Street View), einschließlich flachem Text, erhabenem Text, städtischem Text, ländlichem Text, Text mit geringer Helligkeit, entferntem Text und teilweise verdecktem Text. Die Bildgröße beträgt 2048 x 2048 und die Datensatzgröße beträgt 31 GB. Der Datensatz ist in einen Trainingssatz (25887 Bilder, 812872 chinesische Schriftzeichen), einen Testsatz (3269 Bilder, 103519 chinesische Schriftzeichen) und einen Validierungssatz (3129 Bilder, 103519 chinesische Schriftzeichen) im Verhältnis (8:1: 1) .

13. Baidu-Texterkennung für chinesische Szenen

  • Dateneinführung : Die ICDAR2019-LSVT-Linienerkennungsaufgabe umfasst insgesamt 290.000 Bilder, von denen 210.000 Bilder als Trainingssätze (mit Beschriftungen) und 80.000 Bilder als Testsätze (ohne Beschriftungen) verwendet werden. Der Datensatz wird aus chinesischen Straßenansichten gesammelt und durch das Abfangen von Textzeilenbereichen (z. B. Ladenschildern, Sehenswürdigkeiten usw.) in Straßenansichtsbildern gebildet. Alle Bilder werden einer Vorverarbeitung unterzogen und der Textbereich wird mithilfe affiner Änderungen in ein Bild mit einer Höhe von 48 Pixeln abgebildet, wie in der Abbildung dargestellt:

Bild.png

14.MSRA-TD500

  • Dateneinführung : Dieser Datensatz umfasst insgesamt 500 natürliche Szenenbilder (Training: 300 + Test: 200). Merkmale des Datensatzes: multidirektionale Texterkennung, der größte Teil des Textes befindet sich auf der Führungstafel, die Auflösung liegt zwischen 1296 x 864 und 1920 x 1280, enthält Chinesisch und Englisch, die Anmerkung erfolgt in Zeileneinheiten, nicht in Wörtern, jedes Bild ist vollständig mit Anmerkungen versehen, schwierig zu identifizieren Es gibt schwierige Anmerkungen.

15.Gesamttext

  • Dateneinführung : Enthält insgesamt 500 natürliche Szenenbilder (Training: 1255 + Test: 300). Datensatzfunktionen: Total-Text ist Teil des Trainingssatzes eines der größten gekrümmten Textdatensätze – ArT (Arbitrary Shape Text Dataset).

2.4 Datensatz-Download

Laden Sie einen gemeinsamen Datensatz herunter

Projekt-Github-Adresse: github.com/zcswdt/OCR_…

Das Code-Repository bietet Download-Links für gängige öffentliche Datensätze zur häufig verwendeten OCR-Erkennung und -Erkennung. Es stellt außerdem den Code zum Konvertieren von JSON-Tags in .txt-Tags und die konvertierten .txt-Tags bereit.

Datensatz Dateneinführung Anmerkungsformat Download-Link
ICDAR_2013 Sprache: Englisch Zug:229 Test:233 x1 y1 x2 y2 Text Download-Link 1 .
ICDAR_2015 Sprache: Englisch Zug:1000 Test:500 x1,y1,x2,y2,x3,y3,x4,y4,text Download-Link 2 .
ICDAR2017-MLT Sprache: gemischter Zug:7200 Test:1800 x1,y1,x2,y2,x3,y3,x4,y4,text Download-Link 3. Extraktionscode: z9ey
ICDAR2017-RCTW Sprache: Gemischter Zug:8034 Test:4229 x1,y1,x2,y2,x3,y3,x4,y4,<Schwierigkeit der Identifizierung>, Text Download-Link 4
Tianchi-Wettbewerb 2018 Sprache: gemischter Zug:10000 Test:10000 x1,y1,x2,y2,x3,y3,x4,y4,text Erkennen 5 . Identifizieren Sie 6
ICDAR2019-MLT Sprache: gemischter Zug:10000 Test:10000 x1,y1,x2,y2,x3,y3,x4,y4, Sprachkategorie, Text Download-Link 7. Extraktionscode: xofo
ICDAR2019-LSVT Sprache: gemischter Zug:30000 Test:20000 JSON-Format-Tag Download-Link 8
ICDAR2019-ReCTS Sprache: gemischter Zug:20000 Test:5000 JSON-Format-Tag Download-Link 9
ICDAR2019-Art Sprache: Gemischter Zug:5603 Test:4563 JSON-Format-Tag Download-Link 10
Synth800k Sprache: Englisch80k Zeichenbasierte Anmerkung Download-Link 11
3,6 Millionen chinesischer Datensatz Sprache: Chinesisch 360k Jedes Bild besteht aus 10 Zeichen Download-Link 12. Extraktionscode: lu7m
Chinesischer Street View-Datensatz CTW Sprache: Chinesisch 32285 Chinesische Street View-Bilder basierend auf Zeichenanmerkungen Download-Link 13
Baidu-Texterkennung für chinesische Szenen Sprache: Gemischt 290.000 Download-Link 14

Gemeinsamer Datensatz-Download 2

Datensatz Beschreibung Beispiele BaiduNetdisk-Link
IIIT5k-Wörter (IIIT5K) 3000 Testbildinstanzen. Nehmen Sie Straßenszenen und ursprünglich digitale Bilder auf Szenentext-Datensätze (Extraktionscode: emco)
Street View-Text (SVT) 647 Testbildinstanzen. Einige Bilder sind durch Rauschen, Unschärfe und niedrige Auflösung stark beeinträchtigt Szenentext-Datensätze (Extraktionscode: emco)
StreetViewText-Perspektive (SVT-P) 639 Testbildinstanzen. Es wurde speziell zur Bewertung der perspektivisch verzerrten Texterkennung entwickelt. Es basiert auf dem ursprünglichen SVT-Datensatz, indem die Bilder an derselben Adresse in Google Street View, jedoch mit unterschiedlichen Blickwinkeln, ausgewählt werden. Daher werden die meisten Textinstanzen durch den nicht frontalen Blickwinkel stark verzerrt. Szenentext-Datensätze (Extraktionscode: emco)
ICDAR 2003(IC03) 867 Testbildinstanzen Szenentext-Datensätze (Extraktionscode: mfir)
ICDAR 2013(IC13) 1015 Testbildinstanzen Szenentext-Datensätze (Extraktionscode: emco)
ICDAR 2015(IC15) 2077 Testbildinstanzen. Da Textbilder mit Google Glasses ohne Gewährleistung der Bildqualität aufgenommen wurden, ist der Großteil des Textes sehr klein, unscharf und mehrfach ausgerichtet Szenentext-Datensätze (Extraktionscode: emco)
NIEDLICH80(NIEDLICH) 288 Der Schwerpunkt liegt auf der Erkennung gebogener Texte. Die meisten Bilder in CUTE haben einen komplexen Hintergrund, perspektivische Verzerrungen und eine schlechte Auflösung Szenentext-Datensätze (Extraktionscode: emco)

Referenz : zhuanlan.zhihu.com/p/356842725

3. Datengenerierung

Nachdem die Zielerkennung des Deep-Learning-Systems abgeschlossen ist, ist es häufig erforderlich, einen Klassifikator zu verwenden, um den Erkennungsbereich zu identifizieren. Für tatsächliche Geschäftsszenarien ist es erforderlich, den Hintergrund, die Schriftart, die Farbe, die Verformung, den Korpus und andere erforderliche Informationen basierend auf einer spezifischen Geschäftsanalyse zu analysieren.

Die aktuellen gängigen Methoden zur Generierung von Erkennungsdaten lassen sich grob in drei Kategorien einteilen: Bildverbesserung basierend auf Merkmalstransformation, Bildverbesserung basierend auf Deep Learning und GAN-Generierungsmethode.

3.1 Bildverbesserung basierend auf Feature-Transformation

Diese Art von Methode führt eine Bilderweiterung vorhandener Daten durch , um die Datenmenge zu erweitern. Beim Texterkennungstraining sind die auswählbaren Verbesserungsmethoden aufgrund der Besonderheit des Textes begrenzt und es gibt hauptsächlich vier Arten:

1) Unscharf.

2) Kontraständerungen.

3) Dehnen.

4) Drehen.

3.2 Deep-Learning-OCR-Datengenerierung

此方法也是对现有的数据进行图像增广而扩充数据规模,具体的文本生成过程分为六步:

1)字体渲染。

2)描边、加阴影、着色。

3)基础着色。

4)仿射投影扭曲。模拟3D环境。

5)自然数据混合。

6)加噪声。

参考资源:

1)物体检测的增强。Imgaug:github.com/aleju/imgau…

2)Augmentor:github.com/mdbloice/Au…

3.3 对抗网络GAN数据生成

在实际应用中由于身份证数据、银行卡数据等涉及个人信息的数据往往很难获取,且容易违反法律规定。借助GAN(Generative Adversarial Network,生成对抗网络)可以在一定程度上缓解上述问题。目前GAN的应用场景基本上覆盖了AI的所有领域,例如图像和音频的生成、图像风格迁移、图像修复(去噪和去马赛克)、NLP中的文本生成等。

**生成对抗网络是在生成模型的基础上引入对抗博弈的思想。**假设我们有一个图像生成模型Generator,它的目标是生成一张比较真实的图像,与此同时,我们还有一个图像判别模型Discriminator,它的目标是正确的判别一张图像是生成的还是真实的。具体流程如下:

1)生成模型Generator生成一批图像。

2)判别模型Discriminator学习区分生成图像和真实图像。

3)生成模型根据判别模型反馈结果来改进生成模型,迭代生成新图像。

4)判别模型继续学习区分生成图像和真实图像。

直到二者收敛,此时生成模型和判别模型都能达到比较好的效果。上述的博弈类似《射雕英雄传》中周伯通的左右互搏术,能循环提升生成模型和判别模型的能力。在生成模型中采用神经网络作为主干/backbone,则称之为生成对抗网络。GAN模型结构如下图所示。

Bild

3.4 文本图片数据合成工具

3.4.1 图像合成相关论文

衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

Bild.png

3.4.2 文本图片数据合成工具

开源工具代码:

其他数据生成项目:

Github :BADBADBADBOY genete_ocr_data

其余待补充!!!

四、OCR评价指标

4.1 OCR常用的评估指标:

对于两阶段可以分开来看,分别是检测和识别阶段。

(1)检测阶段:先按照检测框和标注框的IOU评估,IOU大于某个阈值判断为检测准确。这里检测框和标注框不同于一般的通用目标检测框,是采用多边形进行表示。

检测准确率: 正确的检测框个数在全部检测框的占比,主要是判断检测指标。

检测召回率: 正确的检测框个数在全部标注框的占比,主要是判断漏检的指标。

(2)识别阶段: 字符识别准确率,即正确识别的文本行占标注的文本行数量的比例,只有整行文本识别对才算正确识别。

(3)端到端统计:

端对端召回率: 准确检测并正确识别文本行在全部标注文本行的占比;

端到端准确率: 准确检测并正确识别文本行在 检测到的文本行数量 的占比;

准确检测的标准是检测框与标注框的IOU大于某个阈值,正确识别的的检测框中的文本与标注的文本相同。

另外从单词角度分,OCR评价指标包括字段粒度字符粒度的识别效果评价指标。

  • 以字段为单位的统计和分析,适用于卡证类、 票据类等结构化程度较高的OCR 应用评测。
  • 以字符 (文字和标点符号) 为单位的统计和分析,适用于通用印刷体、手写体类非结构化数据的OCR应用评测。

此外,从服务角度来说,识出率、平均耗时等也是衡量OCR系统好坏的指标之一。

4.2 编辑距离:

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。在莱文斯坦距离中,可以删除、加入、替换字符串中的任何一个字元,也是较常用的编辑距离定义,常常提到编辑距离时,指的就是莱文斯坦距离。

Bild.png

公式如下:

Bild.png

Bild.png

  • 平均识别率:[ 1 - (编辑距离 / max(1, groundtruth字符数, predict字符数) ) ] * 100.0% 的平均值;
  • 平均编辑距离:编辑距离,用来评估整体的检测和识别模型;
  • 平均替换错误:编辑距离计算时的替换操作,用于评估识别模型对相似字符的区分能力;
  • 平均多字错误:编辑距离计算时的删除操作,用来评估检测模型的误检和识别模型的多字错误;
  • 平均漏字错误:编辑距离计算时的插入操作,用来评估检测模型的漏检和识别模型的少字错误;

代码实现:

 
 

ini

复制代码

 #代码  import Levenshtein    def evaluate_measure(str_algorithm, str_ground_truth):      # 编辑距离 insert + delete + replace      edit_dist = Levenshtein.distance(str_algorithm, str_ground_truth)      sum_len_two_str = len(str_algorithm) + len(str_ground_truth)      ratio = Levenshtein.ratio(str_algorithm, str_ground_truth)      ldist = sum_len_two_str - (float(ratio) * float(sum_len_two_str))      # 替换操作      replace_dist = ldist - edit_dist      if len(str_algorithm) > len(str_ground_truth):          more_word_error = len(str_algorithm) - len(str_ground_truth)          less_word_error = 0      else:          more_word_error =  0          less_word_error = len(str_ground_truth) - len(str_algorithm)      # - 平均识别率:[1 - (编辑距离 / max(1, groundtruth字符数, predict字符数))] * 100.0 % 的平均值;      recg_rate = "{:.2%}".format(1 - (edit_dist / max(1, len(str_algorithm), len(str_ground_truth))))      print("识别率, 编辑距离, 替换错误, 漏字错误, 多字错误")      print(recg_rate, edit_dist, replace_dist, less_word_error, more_word_error)      return recg_rate, edit_dist, replace_dist, less_word_error, more_word_error

4.3 归一化编辑距离:

Bild.png

Bild.png

五、常见OCR识别模型评估对比

注:评价指标为准确率。

Regular Dataset Irregular dataset
Model Year IIIT SVT IC13(857) IC13(1015) IC15(1811) IC15(2077) SVTP CUTE
CRNN 2015 78.2 80.8 - 86.7 - - - -
ASTER(L2R) 2015 92.67 91,16 - 90,74 76.1 - 78,76 76,39
CombBest 2019 87,9 87,5 93,6 92,3 77,6 71,8 79,2 74
HÄFTLING 2019 93,3 90,2 - 91,3 - 76,9 79,6 83,3
SE-ASTER 2020 93,8 89,6 - 92,8 80 81,4 83,6
UND 2020 94,3 89,2 - 93,9 - 74,5 80 84,4
RobustScanner 2020 95,3 88.1 - 94,8 - 77.1 79,5 90,3
AutoSTR 2020 94,7 90,9 - 94,2 81,8 - 81,7 -
Yang et al. 2020 94,7 88,9 - 93,2 79,5 77.1 80,9 85,4
Saturn 2020 92,8 91,3 - 94.1 - 79 86,5 87,8
Deutschland 2020 94,8 91,5 95,5 - 82,7 - 85.1 87,8
GA-SPIN 2021 95,2 90,9 - 94,8 82,8 79,5 83,2 87,5
TAKE2D 2021 95,6 94 96,4 - 83 - 87,6 91,7
Bhunia et al. 2021 95,2 92,2 - 95,5 - 84 85,7 89,7
Luo et al. 2021 95,6 90,6 - 96,0 83,9 81,4 85.1 91,3
VisionLAN 2021 95,8 91,7 95,7 - 83,7 - 86 88,5
ABINet 2021 96,2 93,5 97,4 - 86,0 - 89,3 89,2
MATRN 2021 96,7 94,9 97,9 95,8 86,6 82,9 90,5 94.1

6. OCR-Daten organisieren und teilen:

Am Ende dieses Artikels werde ich kostenlos eine Zusammenfassung der vom Blogger selbst unter Bezugnahme auf Open-Source-Materialien zusammengestellten OCR-bezogenen Arbeiten veröffentlichen und diese nach Informationen wie Jahr, Datensatz, Methode und Papier umfassend klassifizieren und zusammenfassen Stichworte. Die Beiträge der letzten Jahre werden aussortiert. Willkommen Bitte achten Sie weiterhin aufeinander und lernen Sie voneinander! Sollte der Artikel außerdem Fehler enthalten, korrigieren Sie mich bitte!

Bild.png

Zusammenfassung: In diesem Artikel „Kapitel 6: OCR-Datensätze und Bewertungsindikatoren“ werden hauptsächlich die Klassifizierung von OCR-Datensätzen, Anwendungsszenarien und Bewertungsindikatoren wie Erkennung und Erkennung usw. vorgestellt, damit die Lernenden das Wissen über die OCR-Richtung schnell verstehen können.

Supongo que te gusta

Origin blog.csdn.net/bruce__ray/article/details/132781624
Recomendado
Clasificación