Kapitel 6 von „Ausführliche Einführung in OCR“: OCR-Datensätze und Bewertungsindikatoren

1. Technischer OCR-Prozess

Beginnend mit der Einführung des OCR-Datensatzes werde ich Sie anleiten und den OCR-Technologieprozess überprüfen. Eine typische OCR-Technologie-Pipeline ist in der folgenden Abbildung dargestellt. Unter ihnen sind Texterkennung und -erkennung zwei wichtige Kerntechnologien der OCR-Technologie.

1.1 Bildvorverarbeitung:

Die Bildvorverarbeitung ist der erste Schritt im OCR-Prozess und dient der Verbesserung der Genauigkeit der Zeichenerkennung. Zu den gängigen Vorverarbeitungsvorgängen gehören Graustufen, Binärisierung und Rauschunterdrückung. Darüber hinaus können bei der Erkennung unregelmäßiger Texte Korrekturoperationen vor der Erkennung in der Vorverarbeitungsphase durchgeführt werden.

1.2 Texterkennung

Die Aufgabe der Texterkennung besteht darin, den Textbereich im Eingabebild zu lokalisieren.

1.3 Texterkennung

Die Aufgabe der Texterkennung besteht darin, den Textinhalt im Bild zu identifizieren.

Die allgemeine Eingabe für die Texterkennung erfolgt aus dem Bildtextbereich, der aus dem durch die Texterkennung erhaltenen Textfeld abgefangen wird. Die Texterkennung kann im Allgemeinen in zwei Kategorien unterteilt werden: normale Texterkennung und unregelmäßige Texterkennung basierend auf der Form des zu erkennenden Textes. Unregelmäßige Textszenen stellen eine große Herausforderung dar und sind derzeit die Hauptforschungsrichtung auf dem Gebiet der Texterkennung.

Normaler Text bezieht sich hauptsächlich auf gedruckte Schriftarten, gescannten Text usw. Der Text befindet sich ungefähr in der horizontalen Zeilenposition, wie in der linken Hälfte der folgenden Abbildung dargestellt.
Unregelmäßiger Text befindet sich häufig nicht in horizontaler Position und weist Probleme wie Biegung, Okklusion und Unschärfe auf, wie in der rechten Hälfte der Abbildung unten dargestellt.

2. Statistik und Klassifizierung von OCR-Datensätzen

2.1 Zusammenfassungsstatistik des Datensatzes

Im vorherigen Erkennungskapitel habe ich die Erkennungstechnologie in reguläre (horizontale) Texterkennung und unregelmäßige (multidirektionale) Texterkennung unterteilt. Nachfolgend fasse ich die gängigen OCR-Datensätze zusammen:

Fügen Sie hier eine Bildbeschreibung ein

Referenz: github.com/HCIILAB/Sce…

2.2 Einführung in Datensätze

Nach einer kurzen Zusammenfassung der oben genannten Datensätze werde ich mich auf eine detaillierte Einführung in die Datensätze konzentrieren, die mehrere Szenarien wie reguläre, unregelmäßige, synthetische und handgeschriebene Datensätze abdeckt. Abschließend werde ich die Erkennungseffekte jedes Erkennungsalgorithmus zusammenfassen auf verschiedenen Datensätzen und führen Sie umfassende horizontale Vergleiche durch.

2.1.1 Regeldatensatz

IIIT5K-Wörter (IIIT) 2000 für Zug; 3000 für den Test
Street View Text (SVT) 257 für Zug; 647 für Test
ICDAR 2003(IC03)、ICDAR2013(IC13)

Nehmen Sie ICDAR2013 als Beispiel:

Dieser Datensatz besteht aus etwa 500 natürlichen Szenenbildern, die auf Englisch mit Anmerkungen versehen sind. Das Koordinatenformat ist die obere linke Ecke und die untere rechte Ecke, und das Anmerkungsformat ist eine horizontale Zweipunktanmerkung.

2.1.2 Unregelmäßige Datensätze

ICDAR2015 (IC15) 4468 für Zug; 2077 für Test;
SVT-Perspektive (SP) 645 zum Testen
CUTE80 (CT) 288 für den Test

Nehmen Sie ICDAR2015 als Beispiel:

Dieser Datensatz besteht aus 1.500 (1.000 für das Training, 500 für Tests) natürlichen Szenenbildern, die auf Englisch kommentiert sind. Die Koordinatenformate sind obere linke Ecke, obere rechte Ecke, untere rechte Ecke und untere linke Ecke. Das Anmerkungsformat ist eine Vier-Punkt-Anmerkung . Wie nachfolgend dargestellt:

2.1.3 Synthetischer Datensatz

Synthetische Trainingsdatensätze

Datensatz	Beschreibung	Beispiele	BaiduNetdisk-Link
SynthText(ST)	9 Millionen synthetische Textinstanzbilder aus einem Satz von 90.000 gebräuchlichen englischen Wörtern. Wörter werden mit zufälligen Transformationen auf natürliche Bilder übertragen		Szenentext-Datensätze (Extraktionscode: emco)
MJSynth (MJ)	6 Millionen synthetische Textinstanzen. Es ist eine Generation von SynthText.		Szenentext-Datensätze (Extraktionscode: emco)

Der am weitesten verbreitete Texterkennungsdatensatz ist SynthText (ST) , der im Bereich OCR als ImageNet bezeichnet werden kann. Dieser Datensatz wird von der Universität Oxford veröffentlicht. Der Datensatz wurde durch Synthese generiert und 8 Millionen Texte wurden manuell zu 800.000 Bildern hinzugefügt. Darüber hinaus handelt es sich bei dieser Synthese nicht um eine starre Überlagerung, sondern es wird eine gewisse Verarbeitung durchgeführt, um den Text in den Bildern natürlicher aussehen zu lassen. SynthText ist größer als die meisten anderen Datensätze, die nicht groß genug sind, um ein Modell zu trainieren. Daher basiert es normalerweise auf der Erkennung verschiedener Szenen wie Chinesisch, Englisch, Straßenansicht usw., wird zunächst mit SynthText trainiert und dann mit einem kleinen Datensatz verfeinert.

Github: github.com/ankush-me/S…

Das Beispieldiagramm von SynthText(ST) sieht wie folgt aus:

2.1.4 Chinesischer Szenendatensatz

Chinesischer Text in freier Wildbahn (CTW):

Der CTW-Datensatz ist ein Datensatz für chinesischen Szenentext, der für Texterkennungs- und -erkennungsaufgaben verwendet wird. Der CTW-Datensatz enthält mehr als 40.000 hochauflösende chinesische Szenenbilder, die aus verschiedenen Quellen und Umgebungen stammen und eine große Vielfalt aufweisen.

2.1.5 Handschriftdatensatz

Datensatz-Website: CASIA Online- und Offline-Datenbanken für chinesische Handschriften

Die oben genannte Website stellt Standarddatensätze zur Bewertung der Erkennung handschriftlicher chinesischer Schriftzeichen bereit, einschließlich Merkmalsdaten, die mit vorhandenen Merkmalsextraktionsalgorithmen generiert wurden, und Rohzeichenbeispieldaten. Die spezifischen Spezifikationen lauten wie folgt:

2.3. Detaillierte Einführung des Datensatzes

IC03 , IC13 und IC15 sind Datensätze für den Robust Reading Challenge-Wettbewerb ICDAR (International Conference on Document Analysis and Recognition) 2003/2013/2015. Jedes Bild im Datensatz stammt aus einer realen Szene und ist gut beschriftet. Allerdings sind die Proben relativ klein, insgesamt nur ein paar Tausend.

1.ICDAR-2013

Dateneinführung : Dieser Datensatz besteht aus 462 (Trainingssatz 229, Testsatz 233) englisch beschrifteten Naturszenenbildern. Das Beschriftungsformat ist eine horizontale Zweipunktbeschriftung und das Koordinatenformat ist die obere linke Ecke und die untere rechte Ecke:

2.ICDAR-2015

Dateneinführung : Dieser Datensatz besteht aus 1.500 (Trainingssatz 1.000, Testsatz 500) natürlichen Szenenbildern, die auf Englisch mit Anmerkungen versehen sind. Das Anmerkungsformat ist eine Vierpunktanmerkung. Das Koordinatenformat ist obere linke Ecke, obere rechte Ecke, untere rechte Ecke untere linke Ecke. Ecke, wie unten gezeigt:

3.ICDAR2017-MLT

Dateneinführung : Dieser Datensatz besteht aus 9.000 (Trainingssatz 7.200, Testsatz 1.800) natürlichen Szenenbildern, die in mehreren gemischten Sprachen mit Anmerkungen versehen sind. Das Anmerkungsformat ist eine Vierpunktanmerkung und das Koordinatenformat ist obere linke Ecke, obere rechte Ecke, rechts Ecke. Die untere Ecke und die untere linke Ecke, wie in der Abbildung unten gezeigt:

4.ICDAR2017-RCTW

Dateneinführung : ICDAR 2017-RCTW (Reading Chinest Text in the Wild), vorgeschlagen von Baoguang Shi und anderen Wissenschaftlern. RCTW ist hauptsächlich auf Chinesisch und enthält insgesamt 12.263 Bilder, darunter 8.034 Trainingssätze und 4.229 Testsätze. Das Anmerkungsformat ist eine Vier-Punkte-Anmerkung. Bei den meisten Datensätzen handelt es sich um von Kameras aufgenommene natürliche Szenen, bei einigen handelt es sich um Screenshots die meisten Szenen, wie z. B. Straßen im Freien, Innenszenen, Screenshots von Mobiltelefonen usw.

5. Tianchi-Wettbewerb 2018

Dateneinführung : Dieser Datensatz stammt ausschließlich aus Online-Bildern, die hauptsächlich aus synthetischen Bildern, Produktbeschreibungen und Online-Werbung bestehen. Jedes Bild enthält entweder ein komplexes Layout, dichten kleinen Text oder mehrsprachigen Text oder Wasserzeichen und typische Bilder, wie in Abbildung 1 dargestellt:

6.ICDAR2019-MLT

Dateneinführung : Dieser Datensatz besteht aus 20.000 (Trainingssatz 10.000 und Testsatz 10.000) natürlichen Szenenbildern, die in mehreren gemischten Sprachen mit Anmerkungen versehen sind. Das Anmerkungsformat ist Vierpunktanmerkung und das Koordinatenformat ist obere linke Ecke, obere rechte Ecke, rechts Ecke. untere und untere linke Ecke. 10.000 Bilder, die im Trainingssatz so angeordnet sind, dass: Alle 1000 aufeinanderfolgenden Bilder Text in einer Hauptsprache enthalten (natürlich kann er zusätzlichen Text aus 1 oder 2 anderen Sprachen enthalten, alle aus dem Satz von 10 Sprachen) 00001 – 01000: Arabisch 01001 – 02000: Englisch 02001 - 03000: Französisch 03001 - 04000: Chinesisch 04001 - 05000: Deutsch 05001 - 06000: Koreanisch 06001 - 07000: Japanisch 07001 - 08 000: Italienisch 08001 - 09000: Bangla 09001 - 10000: Hindi wie folgt Wie im gezeigt Figur:

7. ICDAR2019-LSVT

Dateneinführung : Dieser Datensatz besteht aus 450.000 chinesischen Street View-Bildern, darunter 50.000 (20.000 Testsätze + 30.000 Trainingssätze) vollständig annotierte Daten (Textkoordinaten + Textinhalt), 400.000 schwach annotierte Daten (nur Textinhalt), Anmerkungsformular Etikett vier Punkte, wie in der folgenden Abbildung dargestellt:

Hinweis : Unter diesen ist das Etikett des Testdatensatzes derzeit nicht Open Source. Wenn Sie die Ergebnisse auswerten müssen, können Sie sie an die offizielle Website senden: rrc.cvc.uab.es/?ch=16

8.ICDAR2019-ReCTS

Dateneinführung : Der ReCTS-Datensatz enthält 25.000 beschriftete Bilder, der Trainingssatz enthält 20.000 Bilder und der Testsatz enthält 5.000 Bilder. Die Bilder wurden vor Ort mit einer Telefonkamera unter unkontrollierten Bedingungen aufgenommen. Der Schwerpunkt liegt hauptsächlich auf chinesischen Texten auf Restaurantschildern. Jedes Bild im Datensatz ist mit Textzeilenpositionen, Zeichenpositionen und Transkripten von Textzeilen und Zeichen versehen. Beschriften Sie den Standort mit einem Polygon mit vier Eckpunkten, die im Uhrzeigersinn beginnend beim oberen linken Eckpunkt angeordnet sind. Wie nachfolgend dargestellt:

9.ICDAR2019-Art

Dateneinführung : Dieser Datensatz enthält 10.166 Bilder, darunter 5603 Bilder im Trainingssatz und 4563 Bilder im Testsatz. Es besteht aus drei Teilen: Total-Text, SCUT-CTW1500 und Baidu Curve Scene Text (ICDAR2019-LSVT teilweise gekrümmte Daten), einschließlich Text in verschiedenen Formen wie horizontal, multidirektional und gekrümmt. Wie nachfolgend dargestellt:

10.Synth800k

Dateneinführung : Der SynthText-Datensatz wurde 2016 von der Visual Geometry Group des Department of Engineering Sciences der Universität Oxford auf der IEEE Conference on Computer Vision and Pattern Recognition (CVPR) veröffentlicht. Der Datensatz besteht aus Bildern natürlicher Szenen, die Wörter enthalten. Er wird hauptsächlich zur Texterkennung in natürlichen Szenen verwendet. Der Datensatz besteht aus 800.000 Bildern und etwa 8 Millionen synthetischen Wortinstanzen. Jede Textinstanz ist mit Textzeichenfolgen und Begrenzungsrahmen auf Wort- und Zeichenebene versehen.

113,6 Millionen chinesische Datensätze

Dateneinführung : Dieser Datensatz verwendet den chinesischen Korpus (Nachrichten + klassisches Chinesisch), um durch Änderungen in Schriftart, Größe, Graustufen, Unschärfe, Perspektive und Dehnung usw. zufällig insgesamt etwa 3,64 Millionen Bilder zu generieren, und ist in Trainingssätze unterteilt und Verifizierung gemäß 99:1-Satz. Es enthält insgesamt 5990 Zeichen, einschließlich chinesischer Zeichen, englischer Buchstaben, Zahlen und Satzzeichen (Zeichensatz: github.com/YCG09/chine… ). Jedes Beispiel hat feste 10 Zeichen. Die Zeichen werden zufällig aus Sätzen im Korpus abgefangen. Die Bildauflösung ist auf 280x32 vereinheitlicht. Wie nachfolgend dargestellt:

12. Chinesischer Street View-Datensatz CTW

Dateneinführung : Dieser Datensatz enthält 32.285 Bilder, 1.018.402 chinesische Schriftzeichen (von Tencent Street View), einschließlich flachem Text, erhabenem Text, städtischem Text, ländlichem Text, Text mit geringer Helligkeit, entferntem Text und teilweise verdecktem Text. Die Bildgröße beträgt 2048 x 2048 und die Datensatzgröße beträgt 31 GB. Der Datensatz ist in einen Trainingssatz (25887 Bilder, 812872 chinesische Schriftzeichen), einen Testsatz (3269 Bilder, 103519 chinesische Schriftzeichen) und einen Validierungssatz (3129 Bilder, 103519 chinesische Schriftzeichen) im Verhältnis (8:1: 1) .

13. Baidu-Texterkennung für chinesische Szenen

Dateneinführung : Die ICDAR2019-LSVT-Linienerkennungsaufgabe umfasst insgesamt 290.000 Bilder, von denen 210.000 Bilder als Trainingssätze (mit Beschriftungen) und 80.000 Bilder als Testsätze (ohne Beschriftungen) verwendet werden. Der Datensatz wird aus chinesischen Straßenansichten gesammelt und durch das Abfangen von Textzeilenbereichen (z. B. Ladenschildern, Sehenswürdigkeiten usw.) in Straßenansichtsbildern gebildet. Alle Bilder werden einer Vorverarbeitung unterzogen und der Textbereich wird mithilfe affiner Änderungen in ein Bild mit einer Höhe von 48 Pixeln abgebildet, wie in der Abbildung dargestellt:

14.MSRA-TD500

Dateneinführung : Dieser Datensatz umfasst insgesamt 500 natürliche Szenenbilder (Training: 300 + Test: 200). Merkmale des Datensatzes: multidirektionale Texterkennung, der größte Teil des Textes befindet sich auf der Führungstafel, die Auflösung liegt zwischen 1296 x 864 und 1920 x 1280, enthält Chinesisch und Englisch, die Anmerkung erfolgt in Zeileneinheiten, nicht in Wörtern, jedes Bild ist vollständig mit Anmerkungen versehen, schwierig zu identifizieren Es gibt schwierige Anmerkungen.

15.Gesamttext

Dateneinführung : Enthält insgesamt 500 natürliche Szenenbilder (Training: 1255 + Test: 300). Datensatzfunktionen: Total-Text ist Teil des Trainingssatzes eines der größten gekrümmten Textdatensätze – ArT (Arbitrary Shape Text Dataset).

2.4 Datensatz-Download

Laden Sie einen gemeinsamen Datensatz herunter

Projekt-Github-Adresse: github.com/zcswdt/OCR_…

Das Code-Repository bietet Download-Links für gängige öffentliche Datensätze zur häufig verwendeten OCR-Erkennung und -Erkennung. Es stellt außerdem den Code zum Konvertieren von JSON-Tags in .txt-Tags und die konvertierten .txt-Tags bereit.

Datensatz	Dateneinführung	Anmerkungsformat	Download-Link
ICDAR_2013	Sprache: Englisch Zug:229 Test:233	x1 y1 x2 y2 Text	Download-Link 1 .
ICDAR_2015	Sprache: Englisch Zug:1000 Test:500	x1,y1,x2,y2,x3,y3,x4,y4,text	Download-Link 2 .
ICDAR2017-MLT	Sprache: gemischter Zug:7200 Test:1800	x1,y1,x2,y2,x3,y3,x4,y4,text	Download-Link 3. Extraktionscode: z9ey
ICDAR2017-RCTW	Sprache: Gemischter Zug:8034 Test:4229	x1,y1,x2,y2,x3,y3,x4,y4,<Schwierigkeit der Identifizierung>, Text	Download-Link 4
Tianchi-Wettbewerb 2018	Sprache: gemischter Zug:10000 Test:10000	x1,y1,x2,y2,x3,y3,x4,y4,text	Erkennen 5 . Identifizieren Sie 6
ICDAR2019-MLT	Sprache: gemischter Zug:10000 Test:10000	x1,y1,x2,y2,x3,y3,x4,y4, Sprachkategorie, Text	Download-Link 7. Extraktionscode: xofo
ICDAR2019-LSVT	Sprache: gemischter Zug:30000 Test:20000	JSON-Format-Tag	Download-Link 8
ICDAR2019-ReCTS	Sprache: gemischter Zug:20000 Test:5000	JSON-Format-Tag	Download-Link 9
ICDAR2019-Art	Sprache: Gemischter Zug:5603 Test:4563	JSON-Format-Tag	Download-Link 10
Synth800k	Sprache: Englisch80k	Zeichenbasierte Anmerkung	Download-Link 11
3,6 Millionen chinesischer Datensatz	Sprache: Chinesisch 360k	Jedes Bild besteht aus 10 Zeichen	Download-Link 12. Extraktionscode: lu7m
Chinesischer Street View-Datensatz CTW	Sprache: Chinesisch 32285	Chinesische Street View-Bilder basierend auf Zeichenanmerkungen	Download-Link 13
Baidu-Texterkennung für chinesische Szenen	Sprache: Gemischt 290.000		Download-Link 14

Gemeinsamer Datensatz-Download 2

Datensatz	Beschreibung	BaiduNetdisk-Link
IIIT5k-Wörter (IIIT5K)	3000 Testbildinstanzen. Nehmen Sie Straßenszenen und ursprünglich digitale Bilder auf	Szenentext-Datensätze (Extraktionscode: emco)
Street View-Text (SVT)	647 Testbildinstanzen. Einige Bilder sind durch Rauschen, Unschärfe und niedrige Auflösung stark beeinträchtigt	Szenentext-Datensätze (Extraktionscode: emco)
StreetViewText-Perspektive (SVT-P)	639 Testbildinstanzen. Es wurde speziell zur Bewertung der perspektivisch verzerrten Texterkennung entwickelt. Es basiert auf dem ursprünglichen SVT-Datensatz, indem die Bilder an derselben Adresse in Google Street View, jedoch mit unterschiedlichen Blickwinkeln, ausgewählt werden. Daher werden die meisten Textinstanzen durch den nicht frontalen Blickwinkel stark verzerrt.	Szenentext-Datensätze (Extraktionscode: emco)
ICDAR 2003(IC03)	867 Testbildinstanzen	Szenentext-Datensätze (Extraktionscode: mfir)
ICDAR 2013(IC13)	1015 Testbildinstanzen	Szenentext-Datensätze (Extraktionscode: emco)
ICDAR 2015(IC15)	2077 Testbildinstanzen. Da Textbilder mit Google Glasses ohne Gewährleistung der Bildqualität aufgenommen wurden, ist der Großteil des Textes sehr klein, unscharf und mehrfach ausgerichtet	Szenentext-Datensätze (Extraktionscode: emco)
NIEDLICH80(NIEDLICH)	288 Der Schwerpunkt liegt auf der Erkennung gebogener Texte. Die meisten Bilder in CUTE haben einen komplexen Hintergrund, perspektivische Verzerrungen und eine schlechte Auflösung	Szenentext-Datensätze (Extraktionscode: emco)

Referenz : zhuanlan.zhihu.com/p/356842725

3. Datengenerierung

Nachdem die Zielerkennung des Deep-Learning-Systems abgeschlossen ist, ist es häufig erforderlich, einen Klassifikator zu verwenden, um den Erkennungsbereich zu identifizieren. Für tatsächliche Geschäftsszenarien ist es erforderlich, den Hintergrund, die Schriftart, die Farbe, die Verformung, den Korpus und andere erforderliche Informationen basierend auf einer spezifischen Geschäftsanalyse zu analysieren.

Die aktuellen gängigen Methoden zur Generierung von Erkennungsdaten lassen sich grob in drei Kategorien einteilen: Bildverbesserung basierend auf Merkmalstransformation, Bildverbesserung basierend auf Deep Learning und GAN-Generierungsmethode.

3.1 Bildverbesserung basierend auf Feature-Transformation

Diese Art von Methode führt eine Bilderweiterung vorhandener Daten durch , um die Datenmenge zu erweitern. Beim Texterkennungstraining sind die auswählbaren Verbesserungsmethoden aufgrund der Besonderheit des Textes begrenzt und es gibt hauptsächlich vier Arten:

1) Unscharf.

2) Kontraständerungen.

3) Dehnen.

4) Drehen.

3.2 Deep-Learning-OCR-Datengenerierung

此方法也是对现有的数据进行图像增广而扩充数据规模，具体的文本生成过程分为六步：

1）字体渲染。

2）描边、加阴影、着色。

3）基础着色。

4）仿射投影扭曲。模拟3D环境。

5）自然数据混合。

6）加噪声。

参考资源：

1）物体检测的增强。Imgaug：github.com/aleju/imgau…

2）Augmentor：github.com/mdbloice/Au…

3.3 对抗网络GAN数据生成

在实际应用中由于身份证数据、银行卡数据等涉及个人信息的数据往往很难获取，且容易违反法律规定。借助GAN（Generative Adversarial Network，生成对抗网络）可以在一定程度上缓解上述问题。目前GAN的应用场景基本上覆盖了AI的所有领域，例如图像和音频的生成、图像风格迁移、图像修复（去噪和去马赛克）、NLP中的文本生成等。

**生成对抗网络是在生成模型的基础上引入对抗博弈的思想。**假设我们有一个图像生成模型Generator，它的目标是生成一张比较真实的图像，与此同时，我们还有一个图像判别模型Discriminator，它的目标是正确的判别一张图像是生成的还是真实的。具体流程如下：

1）生成模型Generator生成一批图像。

2）判别模型Discriminator学习区分生成图像和真实图像。

3）生成模型根据判别模型反馈结果来改进生成模型，迭代生成新图像。

4）判别模型继续学习区分生成图像和真实图像。

直到二者收敛，此时生成模型和判别模型都能达到比较好的效果。上述的博弈类似《射雕英雄传》中周伯通的左右互搏术，能循环提升生成模型和判别模型的能力。在生成模型中采用神经网络作为主干/backbone，则称之为生成对抗网络。GAN模型结构如下图所示。

Bild

3.4 文本图片数据合成工具

3.4.1 图像合成相关论文

衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

3.4.2 文本图片数据合成工具

开源工具代码：

其他数据生成项目：

Github ：BADBADBADBOY genete_ocr_data

其余待补充！！！

四、OCR评价指标

4.1 OCR常用的评估指标：

对于两阶段可以分开来看，分别是检测和识别阶段。

（1）检测阶段：先按照检测框和标注框的IOU评估，IOU大于某个阈值判断为检测准确。这里检测框和标注框不同于一般的通用目标检测框，是采用多边形进行表示。

检测准确率： 正确的检测框个数在全部检测框的占比，主要是判断检测指标。

检测召回率： 正确的检测框个数在全部标注框的占比，主要是判断漏检的指标。

（2）识别阶段： 字符识别准确率，即正确识别的文本行占标注的文本行数量的比例，只有整行文本识别对才算正确识别。

（3）端到端统计：

端对端召回率： 准确检测并正确识别文本行在全部标注文本行的占比；

端到端准确率： 准确检测并正确识别文本行在检测到的文本行数量的占比；

准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的的检测框中的文本与标注的文本相同。

另外从单词角度分，OCR评价指标包括字段粒度和字符粒度的识别效果评价指标。

以字段为单位的统计和分析，适用于卡证类、票据类等结构化程度较高的OCR 应用评测。
以字符 （文字和标点符号） 为单位的统计和分析，适用于通用印刷体、手写体类非结构化数据的OCR应用评测。

此外，从服务角度来说，识出率、平均耗时等也是衡量OCR系统好坏的指标之一。

4.2 编辑距离：

编辑距离是针对二个字符串（例如英文字）的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。在莱文斯坦距离中，可以删除、加入、替换字符串中的任何一个字元，也是较常用的编辑距离定义，常常提到编辑距离时，指的就是莱文斯坦距离。

公式如下：

平均识别率：[ 1 - (编辑距离 / max(1, groundtruth字符数, predict字符数) ) ] * 100.0% 的平均值；
平均编辑距离：编辑距离，用来评估整体的检测和识别模型；
平均替换错误：编辑距离计算时的替换操作，用于评估识别模型对相似字符的区分能力；
平均多字错误：编辑距离计算时的删除操作，用来评估检测模型的误检和识别模型的多字错误；
平均漏字错误：编辑距离计算时的插入操作，用来评估检测模型的漏检和识别模型的少字错误；

代码实现：

ini

复制代码

#代码 import Levenshtein def evaluate_measure(str_algorithm, str_ground_truth): # 编辑距离 insert + delete + replace edit_dist = Levenshtein.distance(str_algorithm, str_ground_truth) sum_len_two_str = len(str_algorithm) + len(str_ground_truth) ratio = Levenshtein.ratio(str_algorithm, str_ground_truth) ldist = sum_len_two_str - (float(ratio) * float(sum_len_two_str)) # 替换操作 replace_dist = ldist - edit_dist if len(str_algorithm) > len(str_ground_truth): more_word_error = len(str_algorithm) - len(str_ground_truth) less_word_error = 0 else: more_word_error = 0 less_word_error = len(str_ground_truth) - len(str_algorithm) # - 平均识别率：[1 - (编辑距离 / max(1, groundtruth字符数, predict字符数))] * 100.0 % 的平均值； recg_rate = "{:.2%}".format(1 - (edit_dist / max(1, len(str_algorithm), len(str_ground_truth)))) print("识别率, 编辑距离, 替换错误, 漏字错误, 多字错误") print(recg_rate, edit_dist, replace_dist, less_word_error, more_word_error) return recg_rate, edit_dist, replace_dist, less_word_error, more_word_error

4.3 归一化编辑距离：

五、常见OCR识别模型评估对比

注：评价指标为准确率。

		Regular Dataset	Irregular dataset
Model	Year	IIIT	SVT	IC13(857)	IC13(1015)	IC15(1811)	IC15(2077)	SVTP	CUTE
CRNN	2015	78.2	80.8	-	86.7	-	-	-	-
ASTER(L2R)	2015	92.67	91,16	-	90,74	76.1	-	78,76	76,39
CombBest	2019	87,9	87,5	93,6	92,3	77,6	71,8	79,2	74
HÄFTLING	2019	93,3	90,2	-	91,3	-	76,9	79,6	83,3
SE-ASTER	2020	93,8	89,6	-	92,8	80		81,4	83,6
UND	2020	94,3	89,2	-	93,9	-	74,5	80	84,4
RobustScanner	2020	95,3	88.1	-	94,8	-	77.1	79,5	90,3
AutoSTR	2020	94,7	90,9	-	94,2	81,8	-	81,7	-
Yang et al.	2020	94,7	88,9	-	93,2	79,5	77.1	80,9	85,4
Saturn	2020	92,8	91,3	-	94.1	-	79	86,5	87,8
Deutschland	2020	94,8	91,5	95,5	-	82,7	-	85.1	87,8
GA-SPIN	2021	95,2	90,9	-	94,8	82,8	79,5	83,2	87,5
TAKE2D	2021	95,6	94	96,4	-	83	-	87,6	91,7
Bhunia et al.	2021	95,2	92,2	-	95,5	-	84	85,7	89,7
Luo et al.	2021	95,6	90,6	-	96,0	83,9	81,4	85.1	91,3
VisionLAN	2021	95,8	91,7	95,7	-	83,7	-	86	88,5
ABINet	2021	96,2	93,5	97,4	-	86,0	-	89,3	89,2
MATRN	2021	96,7	94,9	97,9	95,8	86,6	82,9	90,5	94.1

6. OCR-Daten organisieren und teilen:

Am Ende dieses Artikels werde ich kostenlos eine Zusammenfassung der vom Blogger selbst unter Bezugnahme auf Open-Source-Materialien zusammengestellten OCR-bezogenen Arbeiten veröffentlichen und diese nach Informationen wie Jahr, Datensatz, Methode und Papier umfassend klassifizieren und zusammenfassen Stichworte. Die Beiträge der letzten Jahre werden aussortiert. Willkommen Bitte achten Sie weiterhin aufeinander und lernen Sie voneinander! Sollte der Artikel außerdem Fehler enthalten, korrigieren Sie mich bitte!

Zusammenfassung: In diesem Artikel „Kapitel 6: OCR-Datensätze und Bewertungsindikatoren“ werden hauptsächlich die Klassifizierung von OCR-Datensätzen, Anwendungsszenarien und Bewertungsindikatoren wie Erkennung und Erkennung usw. vorgestellt, damit die Lernenden das Wissen über die OCR-Richtung schnell verstehen können.