Umi-OCR-Texterkennungstool
für Windows 7 x64 und höher
- Kostenlos : Der gesamte Code in diesem Projekt ist Open Source und völlig kostenlos.
- Praktisch : Entpacken und verwenden, offline ausführen, kein Netzwerk erforderlich.
- Batch : Bilder können stapelweise importiert und verarbeitet werden, und die Ergebnisse werden in lokalen txt/md/jsonl-Dateien in mehreren Formaten gespeichert. Sie können zur Identifizierung auch sofort Screenshots machen.
- Effizient : Verwendung der PaddleOCR-json C++-Erkennungs-Engine. Sofern die Rechnerleistung ausreichend ist, ist es in der Regel schneller als Online-OCR-Dienste.
- Genau : Verwenden Sie standardmäßig die PPOCR-v3-Modellbibliothek. Neben der präzisen Erkennung von normalem Text bietet es auch eine gute Erkennungsrate in Situationen wie Handschrift, falscher Ausrichtung und unübersichtlichen Hintergründen. Sie können Wasserzeichen zum Ignorieren von Bereichsausschlüssen festlegen , die Blocknachbearbeitung zum Zusammenführen von Satzabsätzen festlegen und regulären Text erhalten.
Beschreibung Inhaltsverzeichnis
- Einfacher Einstieg mit Screenshots und Stapelerkennung~
- Satzoptimierung : Wie füge ich Text innerhalb eines natürlichen Absatzes zusammen?
- Bereich ignorieren Wie schließe ich den Text im Screenshot-Wasserzeichen aus?
- Mehrsprachig Fügen Sie weitere von PP-OCR unterstützte Sprachmodellbibliotheken hinzu!
- Befehlszeilenaufruf Verwenden Sie die Befehlszeile oder Tools von Drittanbietern, um Umi-OCR aufzurufen!
- Verknüpfte Übersetzungssoftware: Machen Sie einen Screenshot von OCR und senden Sie den angegebenen Schlüssel, um die Übersetzungssoftware zur Übersetzung auszulösen.
- Mehr Tipps
- Fehlerbehebung Engine kann nicht gestartet werden/Ausnahme bei mehreren Screenshots?
herunterladen
Win7/8-Benutzer und Benutzer von Atom-, Celeron- und Pentium-Prozessoren:
Eine neue Erkennungs-Engine ist 低版本Windows
mit kompatibel und befindet sich in der Testphase. Weitere Informationen finden Sie hier .无AVX指令集的CPU
Win10/11-Benutzer:
Github-Download: Release v1.3.5
Lanzoul-Cloud-Download: https://hiroi-sora.lanzoul.com/s/umi-ocr
Die Ontologie der Umi-OCR-Software umfasst universelle Erkennungsbibliotheken für vereinfachtes Chinesisch und Englisch .
Das unterstützende Erweiterungspaket für die mehrsprachige Erkennung繁中,英,日,韩,俄,德,法
kann die Erkennungsbibliothek importieren . Bitte laden Sie sie bei Bedarf herunter.
Verwenden Sie Quellcode
Expandieren- Der Hauptzweig enthält möglicherweise neue Funktionen, die sich in der Entwicklung befinden. Wenn Sie die stabile Version verwenden möchten, empfiehlt es sich, auf den neuesten Release-Zweig zu wechseln .
- Abhängige Bibliotheken installieren:
pip install -r requirements.txt
- Ausführen
main.py
startet das Programm. Wenn der Test keine Auffälligkeiten zeigt, führen Sieto_exe.py
die Ein-Klick-Verpackung durch. - Nach dem Packen legen Sie bitte den gesamten Ordner der Engine-Komponente PaddleOCR-json im selben Verzeichnis wie die Exe ab!
- Nach dem Packen legen Sie bitte den gesamten Ordner der Engine-Komponente PaddleOCR-json im selben Verzeichnis wie die Exe ab! !
- Nach dem Packen legen Sie bitte den gesamten Ordner der Engine-Komponente PaddleOCR-json im selben Verzeichnis wie die Exe ab! ! !
Kompatibilität (Paddle-Engine-Version)
- Das System unterstützt nur Win10 x64 und höhere Versionen.
- Die CPU muss über den AVX-Befehlssatz verfügen. (Atom-, Itanium-, Celeron- und Pentium-Prozessoren sind möglicherweise nicht kompatibel)
- Wenn Ihre Software und Hardware die oben genannten Bedingungen nicht erfüllen, können Sie die Rapid-Engine-Version verwenden .
Vorwort
Zur Sonderfunktion des Ignorierens bestimmter Bereiche :
Bei Video-Screenshots mit Wasserzeichen, Spiel-Screenshots mit Benutzeroberfläche/Schaltflächen usw. ist es häufig erforderlich, nur den Text im Untertitelbereich zu extrahieren und das Extrahieren des Wasserzeichens und des Benutzeroberflächentexts zu vermeiden. Um diesen Zweck zu erreichen, kann diese Software so eingestellt werden, dass Text in bestimmten Bereichen ignoriert wird.
Wenn eine große Anzahl von Film-, Fernseh- und Spiel-Screenshots sortiert und archiviert werden müssen oder Sie Screenshots finden möchten, die eine bestimmte Zeile/einen Untertitel enthalten, ist es eine sehr effektive Methode, Text aus diesen Bildern zu extrahieren und dann Strg +F. Dies ist die ursprüngliche Absicht bei der Entwicklung dieser Software.
Über die Offline-OCR-Engine PaddleOCR-json :
Ein C++-Paket für PaddleOCR 2.6 cpu_avx_mkl . Es ist effizienter als die Python-Version PPOCR und einige in Python geschriebene OCR-Engines und normalerweise schneller als Online-OCR-Dienste (was Zeit bei der Netzwerkübertragung spart). Unterstützt das Ersetzen des offiziellen Paddle-Modells (kompatibel mit den Versionen v2 und v3) oder Ihres eigenen trainierten Modells und unterstützt die Änderung verschiedener Parameter von PPOCR. Durch das Hinzufügen verschiedener Sprachmodelle kann die Software mehrere Sprachen erkennen.
Einfacher Einstieg
Vorbereiten
Laden Sie einfach das komprimierte Paket herunter und entpacken Sie alle Dateien.
Screenshot-Erkennung
Klicken Sie auf die Screenshot-Schaltfläche oder passen Sie die Tastenkombination an, um die Screenshot-Erkennung aufzurufen.
v1.3.4
Sie können auch ein Vorschaufenster einrichten, das nach der Aufnahme eines Screenshots generiert wird. Das Vorschaufenster kann am oberen Bildschirmrand angeheftet oder zur besseren Anzeige halbtransparent gemacht werden.
Fügen Sie Bilder in die Software ein
Kopieren Sie das Bild an eine beliebige Stelle (z. B. Dateimanager, Webseite, WeChat), klicken Sie auf die Schaltfläche „Einfügen“ oder die Tastenkombination in der Software, und es wird automatisch erkannt.
Batch-Identifizierung lokaler Bilddateien
Ziehen Sie Bilder oder Ordner in die Software, um Text stapelweise zu konvertieren. Sie können auch auf die Schaltfläche klicken, um ein Browserfenster zum Importieren zu öffnen.
Die Erkennungsergebnisse werden lokal gespeichert. Sie können optional reine Text-TXT-Dateien, Markdown-Dateien mit Links, Originalinformations-JSONL-Dateien und andere verschiedene Formate generieren. Führen Sie nach Abschluss der konfigurierbaren Aufgabe einen Shutdown/Standby-Vorgang durch.
Textblock-Nachbearbeitung (Satzoptimierung)
Der von OCR erkannte Text ist in „Blöcke“ unterteilt. Normalerweise wird eine Textzeile in einen Block unterteilt, und manchmal wird eine Zeile fälschlicherweise in mehrere Blöcke unterteilt, was zu Unannehmlichkeiten beim Lesen führt. Bei der Nachbearbeitung von Textblöcken werden Textblöcke erneut verarbeitet, Text innerhalb derselben Zeile oder desselben Absatzes zusammengeführt und in der richtigen Reihenfolge sortiert.
Die folgende Abbildung zeigt, welche Verarbeitungslösung für unterschiedliche Schriftsätze verwendet werden sollte:
Alle Gestaltungsmöglichkeiten im Überblick:
ExpandierenHorizontal – Einzelne Reihe optimieren
Führen Sie dieselbe Textzeile, die versehentlich in mehrere Blöcke unterteilt wurde, in einer Zeile zusammen.
Horizontal – mehrere Zeilen zusammenführen – linksbündig
Behandeln Sie mehrere linksbündige Zeilen als denselben Absatz und führen Sie den Text zusammen. Zeilen, die falsch ausgerichtet sind oder einen zu großen Abstand auf der linken Seite haben, werden als nächster Absatz behandelt.
Horizontale Anordnung – mehrere Zeilen zusammenführen – natürliche Absätze
Behandeln Sie mehrere linksbündige Zeilen als denselben Absatz und lassen Sie am Anfang der ersten Zeile bis zu zwei Leerzeichen in voller Breite zu.
Horizontales Layout – mehrere Zeilen zusammenführen – Fuzzy-Matching
Solange sich die vertikalen Projektionen überlappen, sind die Zeilenhöhen gleich und nahe beieinander liegende Textblöcke werden als derselbe Absatz betrachtet.
Vertikale Anordnung – von links nach rechts – einzeilig / Vertikale Anordnung – von rechts nach links – einzeilig
Optimieren Sie die vertikale Erkennung, führen Sie dieselbe Textzeile zusammen und geben Sie jede Zeile in der Reihenfolge von links nach rechts oder von rechts nach links aus.
Beachten Sie, dass es zusammen mit einer Modellbibliothek (Erkennungssprache) verwendet werden muss, die die vertikale Erkennung unterstützt.
Visuelle Vorschau:
Sie können die Auswirkungen der Textblock-Nachbearbeitung im Ignorierungsbereich-Editor in der Vorschau anzeigen. Die erkannten und nachbearbeiteten Textblöcke werden im Editor mit einem gepunkteten Kästchen markiert.
Der Editor wird hier nur verwendet, um die Auswirkung der Nachbearbeitung zu zeigen. Bei der tatsächlichen Ausführung der Aufgabe wird der Mechanismus für ignorierte Bereiche früher als der Nachbearbeitungsmechanismus ausgeführt und ist von der Nachbearbeitung nicht betroffen.
Ignorieren Sie regionale Besonderheiten
„Bereich ignorieren“ ist eine spezielle Funktion dieser Software, mit der Störungen durch Wasserzeichen in Bildern beseitigt werden können, sodass nur der erforderliche Text in den Erkennungsergebnissen verbleibt.
Expandieren„Bereich ignorieren“ bezieht sich auf einen rechteckigen Bereich mit einer bestimmten Position und Größe auf dem Bild. Textblöcke, die vollständig innerhalb dieser Bereiche liegen, werden ausgeschlossen.
- Klicken Sie auf der Registerkarte „Einstellungen“ auf „Editor für Ignorierungsbereiche öffnen“ , um das Editorfenster zu öffnen.
- Ziehen Sie ein beliebiges Bild in dieses Fenster, um eine Vorschau des Bildes anzuzeigen. Ziehen Sie ein neues Bild in das Fenster, um die Vorschau zu wechseln. Der gezeichnete ignorierte Bereich verschwindet jedoch nicht. Sie können zu anderen Bildern wechseln, um den ignorierten Bereich sorgfältig anzupassen.
- Zeichnen Sie den ignorierten Bereich : Klicken Sie nach dem Ziehen im Bild auf die erste Schaltfläche von links und ignorieren Sie den Bereich A , halten Sie dann die linke Schaltfläche auf dem Bild gedrückt und ziehen Sie, um einen rechteckigen Bereich zu zeichnen. Rückgängig zu machende Schritte .
- Klicken Sie nach dem Zeichnen auf „Fertig stellen“ , um zum Hauptfenster der Software zurückzukehren. Wenn Sie diese Zeichnung nicht anwenden möchten, drücken Sie zum Abbrechen das X in der oberen rechten Ecke.
Siehe den einfachen Fall unten.
Wasserzeichen einfach aus Video-Screenshots ausschließen:
- Öffnen Sie das Fenster „Regionseinstellungen ignorieren“ und ziehen Sie einen beliebigen Screenshot hinein.
Warten Sie etwa 1 Sekunde, das Bild wird auf dem Panel angezeigt und der erkannte Textbereich wird durch eine gepunktete Linie eingerahmt. Ich habe festgestellt, dass auch das Wasserzeichen in der oberen rechten Ecke erkannt wurde.
- Klicken Sie auf „Bereich A auswählen + ignorieren“. Halten Sie die linke Taste auf dem Bildschirm gedrückt und ziehen Sie, um ein Feld zu zeichnen, das den Wasserzeichenbereich vollständig abdeckt. Der Bereich kann größer sein. Es können mehrere Boxen gezeichnet werden.
- Klicken Sie auf Fertig . Kehren Sie zum Hauptfenster zurück und starten Sie die Aufgabe .
Schließen Sie zwei Arten von Benutzeroberflächen in Spiel-Screenshots aus:
- Angenommen, es gibt eine Reihe von Spiel-Screenshots, die hauptsächlich in zwei Bildtypen unterteilt sind. Die Textpositionen und die UI-Positionen der beiden Bildtypen sind nicht identisch:
- Kategorie A (links im Bild oben) ist ein Dialogmodus mit wenigen Wörtern. Der Text der beizubehaltenden Zeilen befindet sich am unteren Bildschirmrand und die auszuschließende Benutzeroberfläche wird unten verteilt.
- Kategorie B (rechts im Bild oben) ist ein historischer Textmodus mit einer großen Anzahl von Wörtern. Es gibt Text, der von oben nach unten beibehalten werden muss (überlappend mit der UI-Position von Kategorie A), und die auszuschließende UI wird verteilt auf beiden Seiten.
- Ziehen Sie ein Bild der Kategorie A hinein. Wählen Sie + Bereich A ignorieren und zeichnen Sie einen Rahmen, um die auszuschließende untere Benutzeroberfläche einzuschließen . Es können mehrere Boxen gezeichnet werden.
- Ziehen Sie ein Bild der Kategorie B hinein. Wählen Sie + Bereich identifizieren und zeichnen Sie einen Rahmen, um den kleinen Textabschnitt einzuschließen, den Sie behalten möchten . Beachten Sie, dass der Bereich, solange er reservierten Text enthält, nicht sehr groß gezeichnet werden muss und nicht den gesamten reservierten Text umbrechen muss; er darf sich nicht mit Text überlappen , der möglicherweise in Zeichnungen der Klasse A vorhanden ist.
- Wählen Sie dann + Bereich B ignorieren und zeichnen Sie ein Feld, um die Benutzeroberfläche auf beiden Seiten der auszuschließenden Klasse-B-Figur zu umschließen . Es können mehrere Boxen gezeichnet werden.
- Klicken Sie auf Fertig . Kehren Sie zum Hauptfenster zurück und starten Sie die Aufgabe .
Ignorieren Sie die Regionsverarbeitungslogik:
-
Bereich A ignorieren : Unter normalen Umständen wird der Text im ignorierten Bereich A nicht ausgegeben.
-
Erkennungsbereich : Wenn Text im Erkennungsbereich vorhanden ist, ist der Ignorierbereich A ungültig . Das heißt, der Text im Ignorierbereich A wird ebenfalls ausgegeben.
-
Bereich B ignorieren : Wenn der Bereich A ignorieren ungültig ist , wird der Bereich B ignorieren wirksam. Das heißt, der Text im Bereich A wird ausgegeben, der Text im Bereich B wird nicht ausgegeben.
Bereich identifizieren Bereich A ignorieren Bereich B ignorieren × Kein Text vorhanden √ Gültig × ungültig √ Text vorhanden × ungültig √ Gültig -
„Bereichskonfiguration ignorieren“ ist nur für eine Auflösung wirksam. Wenn die konfigurierte Auflösung 1920 x 1080 beträgt, werden beim Identifizieren von Bildern in Stapeln nur Bilder, die mit 1920 x 1080 übereinstimmen, störenden Text ausschließen; der gesamte Text in Bildern mit 1920 x 1081 wird ausgegeben.
-
Die in die Vorschau gezogenen Bilder müssen die gleiche Auflösung haben. Wenn Sie zuerst ein 1920x1080-Bild und dann ein Bild mit anderen Auflösungen hineinziehen, öffnet die Software ein Warnfenster. Erst wenn Sie auf „Löschen“ klicken , um den aktuell konfigurierten Ignorierbereich zu löschen, können Sie Bilder mit anderen Auflösungen hineinziehen und diese Auflösung anwenden.
Fügen Sie mehrere Sprachen hinzu
ExpandierenMethode 1: Laden Sie das [Umi-OCR Multi-Language Recognition Expansion Pack] herunter und kopieren Sie es in das Softwareverzeichnis.
Klicken Sie hier, um zum Download-Speicherort zu gelangen
Integrierte Sprachen des Erweiterungspakets:繁中,英,日,韩,俄,德,法
Methode 2: Laden Sie die PP-OCR-Modellbibliothek manuell herunter und fügen Sie sie hinzu
- Die Modelle sind in drei Typen unterteilt: Det-Erkennung, Cls-Richtungsklassifizierung und Rec-Erkennung. Darunter sind det und cls in mehreren Sprachen universell, Sie müssen lediglich das Rec-Erkennungsmodell der neuen Sprache herunterladen.
- Gehen Sie zur Liste der mehrsprachigen Erkennungsmodelle der PP-OCR-Serie V3 und laden Sie eine Reihe von Erkennungsmodellen herunter .
- Wenn die Zielsprache nicht in der V3-Modellliste gefunden wird, können Sie in der Liste der unterstützten Sprachen nachsehen, ob PPOCR diese Sprache bereitstellt. Wenn ja, kann es sein, dass das V3-Modell noch nicht auf den Markt gebracht wurde und Sie zunächst das alte V2-Modell verwenden können. (Ersetzen Sie 2.x in der URL des V3-Modells durch kleinere Zahlen, um die alte Version der Seite anzuzeigen.)
- Gehen Sie zur Wörterbuchliste der PP-OCR-Serie und laden Sie die Wörterbuchdatei der entsprechenden Sprache herunter. (Aber das englische V3-Wörterbuch
en_dict.txt
befindet sich nicht in diesem Verzeichnis, sondern im oberen Verzeichnis .) - Entpacken Sie die heruntergeladene Datei und legen Sie sie im
PaddleOCR-json
Ordner des Softwareverzeichnisses ab. - Erstellen Sie eine Kopie
PaddleOCR_json_config_[模板].txt
und ändern Sie den Namen. (Nicht-englische Zeichen sind in Dateinamen nicht erlaubt!) - Öffnen Sie die kopierte Datei
PaddleOCR_json_config_XX.txt
und ändern Sie den Rec-Pfadrec_model_dir
und den Wörterbuchpfadrec_char_dict_path
in den Namen der Datei (des Ordners) in der Zielsprache. Wenn es sich bei der Modellbibliothek um Version v2 handelt, muss eine weitere Zeile hinzugefügt werdenrec_img_h 32
. - Kehren Sie zum vorherigen Verzeichnis zurück
Umi-OCR
, öffnen Sie esUmi-OCR_config.json
und"ocrConfig"
fügen Sie neue Sprachinformationen hinzu. Der Schlüssel ist der Name der Sprache und der Wertpath
ist der Name der TXT-Konfigurationsdatei. Behalten Sie das JSON-Format bei und achten Sie auf die Kommas. (Stellen Sie beim Ändern der Datei config.json bitte sicher, dass die Software nicht geöffnet ist, da sonst die Konfiguration möglicherweise überschrieben wird.) 识别语言
Öffnen Sie die Software und prüfen Sie , ob die Sprache im Dropdown-Feld auf der Einstellungsseite ausgewählt werden kann.
Erweiterte Vorgänge und Tipps
Befehlszeilenaufruf
Expandierenv1.3.3
Später wird der Aufruf von Umi-OCR über die Befehlszeile unterstützt, um einige Bilderkennungsaufgaben auszuführen.
Wenn die Software nicht ausgeführt wird, startet die Befehlszeile die Software und führt Aufgaben aus. Wenn die Software bereits im Hintergrund läuft, ruft die Befehlszeile die Hintergrundsoftware direkt auf, um Aufgaben auszuführen. Dies spart bei mehrmaligem Aufruf Initialisierungszeit.
Beachten Sie, dass sich der Befehlszeilenaufrufeintrag extra
im Programmverzeichnis befindet umiocr.exe
, nicht der reguläre Softwareeintrag ( Umi-OCR 文字识别.exe
).
⚠︎Im Ordner umiocr.exe
des Programmverzeichnisses . extra
⚠︎
Die Befehlszeilensyntax folgt den Gflags-Regeln von Google:
-命令
oder-命令=参数
oder-命令 参数
Befehl 0: Starten Sie die Software
Wenn die Software nicht gestartet wurde, startet jeder Befehl das Hauptprogramm der Software.
Befehl 1: Fenster anzeigen
umiocr.exe
oder
umiocr.exe -show
Ganz gleich, in welchem Zustand sich das Hauptfenster befindet (minimiert, in der Taskleiste empfangen, von anderen Fenstern verdeckt), dieser Befehl bewirkt, dass das Hauptfenster nach oben springt.
Anleitung 2: Fenster ausblenden
umiocr.exe -hide
Verschieben Sie das Fenster in die Taskleiste oder minimieren Sie es.
show
und hide
diese beiden Anweisungen können mit anderen Anweisungen gemischt werden, zumiocr.exe -clipboard -show
Anleitung 3: Schließen Sie die Software
umiocr.exe -exit
Anleitung 4: Lokale Bilderkennung
umiocr.exe -img=图片.png
Unterstützt Bilder/Ordner; mehrere Pfade werden durch Kommas getrennt; Pfade, die Leerzeichen enthalten, werden in doppelte Anführungszeichen „“ eingeschlossen. wie:
umiocr.exe -img="D:/图库,E:/my img/图片.png"
Wenn der Pfad chinesische Zeichen enthält, fügen Sie unbedingt doppelte Anführungszeichen hinzu.
Anleitung 5: Bilderkennung in der Zwischenablage
umiocr.exe -clipboard
Anleitung 6: Machen Sie Screenshots, um Bilder zu identifizieren
umiocr.exe -screenshot
Befehl 7: Erkennungssprache wechseln
umiocr.exe -language=序号
„Seriennummer“ ist die Reihenfolge jeder Sprache in den Softwareeinstellungen, beginnend bei 0. Zählt man zum Beispiel von oben nach unten, wenn Jane an erster Stelle steht, dann ja -language=0
. Traditionelles Chinesisch steht an zweiter Stelle, dann ja -language=1
. Englisch belegte den vierten Platz -language=3
. Und so weiter.
Software zur Übersetzung von Schaltflächen und Verknüpfungen zum Kopieren und Senden
ExpandierenSenden Sie bestimmte Tastenanschläge
v1.3.5
Ab unterstützt es die schnelle Bilderkennung und das Schreiben der Ergebnisse in die Zwischenablage, wobei ein Satz bestimmter Schlüssel gesendet wird, um die Übersetzungssoftware zur Übersetzung auszulösen. Natürlich kann es auch zum Auslösen Ihrer AHK-Skripte usw. verwendet werden, um seltsamere Funktionen zu erreichen.
Dies ist eine versteckte erweiterte Funktion. Bitte überprüfen Sie zuerst den unteren Rand der Einstellungsseite 高级选项
und starten Sie die Software neu. 快捷识图
Im Abschnitt der Einstellungsseite wird es ein weiteres Element geben: 自动复制后发送按键
. Sie können eine Reihe von Tastenkombinationen aufzeichnen und die Anzahl der Wiederholungen ändern (unterstützt Einzelklick, Doppelklick usw.). Wenn die Screenshot-OCR abgeschlossen ist, wird diese Tastenkombination gesendet. Beachten Sie, dass beide aktiviert sein müssen 自动复制结果
, damit diese Funktion wirksam wird.
Nach dem Testen kann Umi-OCR erfolgreich eine Verbindung mit CopyTranslator und Salad Search herstellen , um die Übersetzung auszulösen. Im Folgenden finden Sie die Konfigurationsmethode.
LinkageCopyTranslator
-
Laden Sie CopyTranslator herunter . Die in diesem Beispiel verwendete Version ist
v11
. -
Wenn es Ihnen nichts ausmacht, dass CopyTranslator die Zwischenablage überwacht (versucht, jedes Mal zu übersetzen, wenn sich die Zwischenablage ändert), dann überprüfen Sie Umi-OCR
自动复制结果
und CopyTranslator监听剪贴板
.
-
Wenn Sie die Überwachung der Zwischenablage nicht immer aktivieren müssen und möchten, dass Umi-OCR unter allen Umständen CopyTranslator aufruft, können Sie Folgendes tun: Aktivieren Sie CopyTranslator in den Einstellungen; die Aufzeichnung
双Ctrl+C翻译
von Umi-OCR自动复制后发送按键
erfolgtctrl+c
,2
mal.
Verknüpfte Salatsuche
- Salad Search ist ein Browser-Plug-in, das Chrome, Edge und andere Browser unterstützt. Dies ist die Download-Seite . Im Folgenden wird der Edge-Browser als Beispiel verwendet, um die Konfigurationsmethode zu erläutern. Bei anderen Browsern ist es ähnlich. (Firefox-Unterstützung ist unvollständig und wird nicht empfohlen.)
- Öffnen Sie die Plug-in-Einstellungsseite von Salad Word Search, wählen Sie es in der linken Spalte aus
基本选项
und überprüfen Sie es in der rechten Spalte后台保持运行
. (Es kann auch verwendet werden, wenn es nicht aktiviert ist, der Browser muss jedoch geöffnet bleiben.) - Klicken Sie auf die linke Spalte
隐私设置
und dann auf die rechte Spalte设置快捷键
.
在独立窗口中搜索剪贴板内容
Legen Sie auf der neuen Seite, die angezeigt wird, beliebige Tastenkombinationen für die Salatsuche fest und ändern Sie sie dann rechts全局
. Für die Umi-OCR-自动复制后发送按键
Aufzeichnung wird dieselbe Tastenkombination verwendet1
.
- Gehen Sie zurück zur Einstellungsseite von Salad Search, klicken Sie auf die linke Spalte
权限管理
und überprüfen Sie sie读取剪贴板
.
Benutzerdefinierte geplante Aufgaben
Expandieren- Zusätzlich zum standardmäßigen automatischen Herunterfahren/Standby können Sie auch Ihre eigenen geplanten Aufgaben erstellen und die Software nach Abschluss einer Stapelerkennung benutzerdefinierte cmd-Befehle ausführen lassen.
- Öffnen Sie bei geschlossener Software die Konfigurationsdatei
Umi-OCR_config.json
. Sie können auch zuerst die Software öffnen, unten auf der Einstellungsseite auf „Einstellungsdatei öffnen“ klicken und dann die Software beenden. okMission
Fügen Sie ein Element hinzu .- Der Schlüssel ist der Aufgabenname und der Wert ist ein Wörterbuch, in dem
code
sich der Befehl cmd befindet. Mehrere Befehle können&
getrennt werden. Beispiel:"我的任务": {"code": "cmd命令1 & 命令2"}
Speicherreinigung
ExpandierenDiese Funktion ist standardmäßig deaktiviert.
Bei Benutzern, die sehr empfindlich auf die Speichernutzung reagieren, kann es den Nebeneffekt haben, dass Aufgaben gelegentlich verlangsamt werden. Allgemeine Benutzer müssen es nicht aktivieren.
Wenn Sie es einschalten müssen, scrollen Sie bitte zum Ende der Einstellungsseite, überprüfen Sie es 高级选项
, starten Sie die Software neu und dann: OCR识别引擎设置
→ 自动清理内存
→ 将任一参数改成>0的值
.
Das Prinzip besteht darin, die Engine-Komponente neu zu starten und den gesamten derzeit von der Engine belegten Speicher freizugeben, wenn eine Bedingung erfüllt ist (die Speichernutzung überschreitet den Grenzwert oder Aufgaben wurden über einen bestimmten Zeitraum nicht ausgeführt).
Zum Ausführen hinzufügen (Win+R-Tastenkombination)
Expandieren- Erstellen Sie an einer beliebigen Stelle einen Ordner mit einem zufälligen Namen und fügen Sie den Pfad zum Ordner zur Systemumgebungsvariablen hinzu .
- Die Software erstellt eine Verknüpfung und ändert sie in einen Kurznamen, z. B.
umi
. - Legen Sie die Verknüpfung aus Schritt 1 in den Ordner ab.
- Drücken Sie jederzeit darauf
Win+R
und geben Sie im Popup-Fenster ein,umi
um die Software zu öffnen.
- Tipp: Bitte geben Sie keinen Namen ein
ocr
, da das System möglicherweise einen Registrierungspfad mit demselben Namen hat und Software von Drittanbietern mit diesem Befehl nicht aufgerufen werden kann.
Fehlerbehebung
Motor kann nicht gestartet werden
ExpandierenDie PaddleOCR-Engine unterstützt derzeit nicht die Ausführung auf CPUs ohne den AVX-Befehlssatz. Wenn dieses Problem auftritt, können Sie stattdessen versuchen, die RapidOCR-Engine zu verwenden.
Das Bild unten zeigt, wie Sie feststellen können, ob das Problem durch fehlendes AVX verursacht wird.
Gängige Heim-CPUs unterstützen im Allgemeinen den AVX-Befehlssatz wie folgt:
AVX | Unterstützte Produktfamilien | nicht unterstützt |
---|---|---|
Intel | Core, Xeon, 11. Generation und später Celeron und Pentium | Atom, Itanium, Celeron und Pentium der 10. Generation und früher |
AMD | Bulldozer-Architektur und Folgeprodukte wie Ryzen, Athlon, FX usw. | K10-Architektur und frühere Produkte |
Sie können die Befehlssatzinformationen Ihrer CPU über die CPU-Z -Software anzeigen.
Mehrere Screenshots funktionieren nicht richtig
ExpandierenAufgrund der Auswirkungen der Fensterskalierung auf das Bildschirmkoordinatensystem kann es bei Anschluss mehrerer externer Bildschirme und inkonsistenten Skalierungsverhältnissen zu Abweichungen im integrierten Screenshot-Modul von Umi-OCR kommen, z. B. zu unvollständigen Bildern, deformierten Fenstern, nicht erkennbarem Text usw .
In diesem Fall finden Sie hier drei alternative Lösungen, die Sie verwenden können.
- Stellen Sie in den Systemeinstellungen [Größe von Text, Anwendungen usw. ändern] alle Bildschirme auf den gleichen Wert ein. Siehe Bild unten links.
-
Die Software verfügt über eine zweite Reihe von Screenshot-Lösungen: Aufrufen der in Windows integrierten Funktion „Snapshot and Sketch“, um den Screenshot zu vervollständigen und OCR aufzurufen. Kann in den Softwareeinstellungen umgeschaltet werden. (Wenn das System nach der Aufnahme eines Screenshots keine OCR auslösen kann, stellen Sie bitte sicher, dass das System
win+shift+S
den Screenshot auslösen kann und自动复制到剪贴板
der Schalter nicht ausgeschaltet werden kann (standardmäßig ist er aktiviert). Siehe rechts im Bild oben.)
-
Deaktivieren Sie die DPI-Skalierung der Software. Ja
Umi-OCR 文字识别.exe
, klicken Sie mit der rechten Maustaste → Eigenschaften → Kompatibilität → Höhere DPI-Einstellungen ändern → Überprüfen替代高DPI缩放行为
.
Motorkomponente nicht gefunden
Bitte platzieren Sie die Engine-Komponente PaddleOCR-json 文件夹
im selben Verzeichnis wie den Programmeintrag (main.py oder exe).
Effizienztest
ExpandierenPrüfung der Maschine:
CPU | TDP | RAM | Ist es mit mkldnn kompatibel? |
---|---|---|---|
R5 4600u | 15w | 16g | Kein Fehler gemeldet |
Testsatz:
Anzahl der Bilder | Test-Bedingungen | Auflösung | Durchschnittliche Anzahl an Blöcken | Durchschnittliche Zeichenanzahl | Schriftsprache |
---|---|---|---|---|---|
100 | Die Umgebung ist die gleiche und der Durchschnittswert wird aus mehreren Messungen ermittelt. | 1920x1080 | 15 | 250 | Vereinfachtes Chinesisch |
Testergebnisse:
Umi-OCR-Version | 1.2.5 | 1.2.5 | 1.2.6 | 1.2.6 | 1.2.6 | 1.2.6 |
---|---|---|---|---|---|---|
PaddleOCR-json-Version | 1.1.1 | 1.1.1 | 1.2.0 | 1.2.0 | 1.2.0 | 1.2.0 |
PP-OCR C++-Version | 2.1 | 2.1 | 2.6 | 2.6 | 2.6 | 2.6 |
Ob mkldnn aktiviert werden soll | ✅ | ✅ | ✅ | ✅ | ||
Version der PP-OCR-Modellbibliothek | v2 | v2 | v2 | v3 | v3 schlank | v3 |
Gesamtzeit (Sekunden) | 90 | 120 | 65 | 63 | 170 | 400 |
Durchschnittlich benötigte Zeit pro Schuss (Sekunden) | 0,9 | 1.2 | 0,65 | 0,63 | 1.7 | 4,0 |
Spitzenspeichernutzung (MB) | 1000 | 350 | 1200 | 1700 | 5800 | 500 |
abschließend:
- Wenn mkldnn aktiviert ist,
v1.2.6
bieten spätere Versionen erhebliche Effizienzvorteile gegenüber der vorherigen Generation. Die neue Tuning-Version beeinträchtigt tendenziell die Leistung der Hardware und die Speichernutzung ist höher als bei der alten Version. - Wenn mkldnn nicht aktiviert ist, ist die neue Version nicht so effizient wie die vorherige Version. Wenn Ihre CPU mkldnn (sehr frühe AMD-Modelle) nicht unterstützt, können Sie daher versuchen, die
v1.2.5
ältere Version von Umi-OCR zu verwenden. - Obwohl in der offiziellen Dokumentation von Paddle angegeben ist, dass die Leistungsindikatoren der schlanken Version des Modells nach Komprimierung, Bereinigung, Destillation und Quantifizierung die des herkömmlichen Algorithmus übertreffen werden, ist die gemessene Leistung des schlanken v3-Modells weitaus schlechter als die der Originalversion und kann dies sogar tun auch mit Speicherlecks einhergehen. Möglicherweise ist die PP-OCR C++-Engine nicht geeignet. Bis dieses Problem behoben ist, stellt die Umi-OCR-Distribution Rohversionsmodelle bereit.
Entwicklungshinweise
ExpandierenGedanken des Entwicklers
- Wenn Sie die Schnittstelle zum Aufrufen von OCR verwenden möchten, können Sie das Bild-zu-Text-Programm PaddleOCR-json ausprobieren .
- Die Version PPOCR v2.6 (PaddleOCR-json v1.2.0) verbessert die durchschnittliche Geschwindigkeit der Stapelverarbeitung, allerdings auf Kosten einer längeren Initialisierung. Die Erkennungsgeschwindigkeit wurde verbessert, wenn die mkldnn-Beschleunigung aktiviert ist, allerdings auf Kosten einer geringeren Effizienz, wenn die Beschleunigung nicht aktiviert ist. (Solange es sich bei der CPU nicht um eine besonders frühe AMD-CPU handelt, kann mkldnn im Allgemeinen verwendet werden, die Beschleunigung ist jedoch möglicherweise nicht so gut wie bei Intel derselben Klasse.)
- Zukünftig wird eine Openblas-Versionserkennungs-Engine hinzugefügt, um die Effizienz von AMD weiter zu optimieren. (im Leben)
pyinstaller
Verpackung verwenden . Sie können to_exe.py im Stammverzeichnis ausführen , um das Packen mit einem Klick durchzuführen.- Die Konfigurationsdatei
Umi-OCR_config.json
wird beim ersten Start des Programms generiert. Wenn Sie den Pfad der Engine-Komponente anpassen möchten, können Sie derenocrToolPath
Eigenschaften ändern. Unterstützt absolute/relative Pfade. Mehrere Frontends können einen Satz von Engine-Komponenten gemeinsam nutzen. v1.3.0
Fast das gesamte Projekt-Framework wurde neu geschrieben, die Geschäftslogik wurde vom UI-Code entkoppelt und mehrere Untermodule wurden aufgeteilt. Ich denke, dass diese Untermodule bequemer zu erweitern sind:- Dateiausgabemodul
ocr/output_*.py
- Nachbearbeitungsmodul für Textblöcke
ocr/tbou/*.py
- Dateiausgabemodul
- Der allgemeine Weg, ein neues Submodul hinzuzufügen, ist:
utils/config.py
Fügen Sie die erforderlichen Konfigurationselemente hinzu . Nach dem Schreiben von Konfigurationselementparametern_ConfigDict
kann die Variable tk.var automatisch generiert werden, um lokale Konfigurationsdateien zu lesen und zu schreiben. Während das Programm läuft, werden alle Parameteränderungen automatisch lokal geschrieben.ui/win_main.py
Fügen Sie die erforderliche Benutzeroberfläche hinzu . Wenn Sie die dynamische Variable tk.var benötigen,Config.getTK()
binden Sie sie direkt.- Erben Sie die übergeordnete Klasse des Moduls und schreiben Sie Geschäftslogik. Bei der Initialisierung wird die Konfiguration gelesen und die entsprechende Verarbeitung in die Event-Methode geschrieben.
- Das Modul sollte versuchen, nicht zu viele externe Schnittstellen zu haben. Je mehr Parameter übergeben werden, desto wahrscheinlicher ist es, dass es chaotisch wird. Holen Sie sich dort einfach, was Sie wollen
Config
. Wenn Sie beispielsweise eine Methode der Hauptfensterklasse aufrufen möchten, verwenden Sie sie einfach. WennConfig.main
Sie Parameter möchten, verwenden Sie sie einfachConfig.get()
.
- Auf jeden Fall
Config
ist es der Hub, die globale Schnittstelle für die Kommunikation zwischen Modulen sowie zwischen Modulen und Konfigurationen. Versuchen Sie, nicht gleichzeitig in mehreren Threads zu lesen und zu schreiben. Ich habe eine Benutzeroberfläche entworfen, mit der die Konfigurationselemente geändert werden können, die beim Ausführen der Aufgabe gesperrt werden sollen, sodass das Lesen des Aufgabenthreads nicht beeinträchtigt wird. - Persönlich mag ich kleine und schöne Taschen, deshalb versuche ich, keine sperrigen Taschen zu verwenden. Dies ist auch der Grund, warum ich immer tkinter anstelle des leistungsstarken QT verwendet habe. Das Volumen von PYQT beträgt fast 50 m, was fast der doppelten Größe des gesamten Projekts nach der Verpackung (ohne Engine) entspricht.
- Es gibt so viele Kommentare, also machen Sie sich keine Sorgen, wenn Sie sie nicht verstehen ~ Aber einige der Codes sind hässlich, also verzeihen Sie mir bitte.
ALLE
vollendet- Der Ausgabeinhalt kann als Markdown-Stil ausgewählt und in den Bildpfad eingebettet werden.
- Einstellungen können gespeichert werden.
- Öffnen Sie die Ausgabedatei oder den Ausgabeordner automatisch.
- Identifizieren Sie Bilder in der Zwischenablage.
- Während die Aufgabe ausgeführt wird, sind einige Einstellungen deaktiviert.
- Geplante Aufgaben: Automatisches Herunterfahren/Ruhezustand nach Abschluss usw.
- Ordner rekursiv importieren.
- Optimieren und anpassen Sie das PaddleOCR v3-Modell.
- Es wurde ein Modus hinzugefügt, bei dem der OCR-Engine-Prozess im Hintergrund läuft, wodurch die für triviale Aufgaben wie die Bilderkennung in der Zwischenablage erforderliche Zeit erheblich verkürzt wird.
- Überwachen Sie die Speichernutzung des OCR-Engine-Prozesses und erzwingen Sie jederzeit den Stopp des Prozesses.
- Integrierte Screenshots.
- Kann auf die Taskleiste minimiert werden.
- Benutzeroberfläche optimieren: Textschaltflächen durch Symbole ersetzen. Über dem Einstellungselement befindet sich ein Eingabeaufforderungsfeld mit Blasen.
- Erkennen Sie automatisch, ob die Windows-Sprache kompatibel ist
- Lösen Sie die Kompatibilität der Engine Opencv mit Windows in verschiedenen Regionalsprachen.
- Optimieren Sie die Motorparametereinstellungen.
- Verarbeitung nach dem Satz: Text im selben Absatz abgleichen/zusammenführen, horizontales/vertikales Layout unterstützen.
- Der Fenster-Popup-Modus kann eingestellt werden (nach oben gesperrt).
- Erstellen Sie das Tastenkombinationsmodul neu, um Fehler durch Fehler und falsche Aufzeichnungen zu beheben.
- Stellen Sie den automatischen Start beim Booten ein.
- Erstellen Sie Verknüpfungen zum Startmenü und zum Desktop.
- Weitere Eingabeaufforderungen öffnen.
- Blenden Sie das Fenster aus, wenn Sie einen Screenshot machen.
- Die Struktur wird für jedes Bild in eine separate txt-Datei mit demselben Namen ausgegeben
- Optional beim Erstellen von Startelementen
不显示主窗口
. - Die OCR-Ergebnisse werden in einer separaten TXT-Datei mit demselben Namen wie jedes Bild ausgegeben.
- Es wurde ein unabhängiges Einstellungsfenster für die Sprache hinzugefügt, das an mehreren Stellen geöffnet werden kann, um den Sprachwechsel zu erleichtern.
- Durch das Hinzufügen zusammengeführter Absätze
合并自然段-西文模式
können beim Umbrechen englischer Absätze Leerzeichen hinzugefügt werden. - Die schnelle Bilderkennung ist optional
自动清空面板
, es werden nur die Erkennungsergebnisse angezeigt und die Zeitinformationen ausgeblendet. - Steuern Sie Umi-OCR über die Befehlszeile.
- Es erscheint eine schwebende Eingabeaufforderung, die angibt, ob die Erkennung erfolgreich war oder nicht.
- Löschen Sie die Engine-Speichernutzung automatisch, wenn dies geplant ist oder das Limit überschritten wird.
- Textkorrektur.
- mehrsprachig.
- Unterstützung für hochauflösende Bildschirme.
- Erkennung von PDF-Dokumenten.
- Benennen Sie das Bild um.
- Verbessern Sie die Initialisierungsgeschwindigkeit.
- Voreinstellungen können durch Ignorieren von Bereichen gespeichert werden.
- Reduzieren Sie die Größe des Offline-OCR-Moduls.
- Erkennen Sie automatisch, ob der CPU-Befehlssatz kompatibel ist.
- Optimieren Sie das Interface-Design und unterteilen Sie Funktionsmodule in verschiedene Registerkarten.
- Offline-OCR-Modul hinzugefügt
no_avx
undopenblas
Versionen.
Änderungsprotokoll
Klicken Sie auf den Link mit der Versionsnummer, um zum entsprechenden Sicherungszweig zu gelangen.
v1.3.5 2023.6.20
- Neue Funktion: Nach dem Kopieren der Erkennungsergebnisse können Sie bestimmte Schlüssel zur Verknüpfung mit dem Übersetzer und anderen Tools senden.
- Neue Funktion: Befehl zum Wechseln der Erkennungssprache in der Befehlszeile hinzugefügt.
- Fehlerbehebung: Es besteht die Möglichkeit falsch positiver Ergebnisse auf Computern mit niedriger Konfiguration
OCR init timeout: 5s
. #154 , #156 . - Anpassung: Standardmäßig wird der Speicher einmalig nach 30 Sekunden nach dem Stoppen der Aufgabe freigegeben.
v1.3.4 2023.4.26
- Neue Funktion: Screenshot-Vorschaufenster.
- Neue Funktion: Mit den Pfeiltasten können Sie die Position des Screenshot-Rahmens feinjustieren.
- Fehlerbehebung: Es besteht die Möglichkeit, dass das Hauptfenster hängen bleibt, wenn ein Bild hineingezogen wird. Problem Nr. 126 .
- Einige Verarbeitungsprozesse optimiert.
v1.3.3 2023.3.19
- Neue Funktion: Befehlszeilenmodus.
- Neue Funktion: Schwebendes Benachrichtigungsfenster, wenn die Bilderkennung abgeschlossen ist.
- Neue Funktion: Motorspeicher automatisch bereinigen.
- Einige Fehler wurden behoben und die Leistung der Benutzeroberfläche optimiert.
v1.3.2 2022.12.1
- Neue Funktion: Optional beim Erstellen von Startelementen
不显示主窗口
. - Neue Funktion: OCR-Ergebnisse werden für jedes Bild in eine separate TXT-Datei mit demselben Namen ausgegeben.
- Neue Funktion: Ein unabhängiges Einstellungsfenster für die Sprache wurde hinzugefügt, das an mehreren Stellen geöffnet werden kann, um den Sprachwechsel zu erleichtern.
- Neue Funktion: Zusammengeführte Absätze hinzugefügt
合并自然段-西文模式
, um beim Umbrechen englischer Absätze Leerzeichen hinzuzufügen. - Neue Funktion: Die schnelle Bilderkennung ist optional
自动清空面板
, es werden nur die Erkennungsergebnisse angezeigt und die Zeitinformationen werden ausgeblendet. - Einige Fehler behoben.
v1.3.1 2022.11.4
- Fehlerbehebung: Schreiben Sie das Tastenkombinationsmodul neu, führen Sie die Pynput-Bibliothek ein, geben Sie die Tastaturbibliothek auf und beheben Sie Fehler wie Fehlerwahrscheinlichkeit und falsche Aufzeichnung.
- Neue Funktionen: Automatischer Start beim Booten, Desktop-Verknüpfungen und Startmenü-Verknüpfungen hinzufügen.
- Neue Funktion: Eingabeaufforderung beim Öffnen mehrerer Softwareprogramme.
- Neue Funktion: Fenster beim Aufnehmen eines Screenshots ausblenden.
- Passen Sie die Benutzeroberfläche an: Einstellungselemente, die selten verwendet werden, werden auf ausgeblendete erweiterte Optionen gesetzt.
- Optimierung: Prüfen Sie, ob Motorkomponenten vorhanden sind.
- Optimierung:
横排-合并多行-自然段
Optimieren Sie die Logik und unterstützen Sie 0 bis 2 Leerzeichen in voller Breite für die Einrückung der ersten Zeile.
v1.3.0 2022.9.29
- Neue Funktion: Screenshot der Rahmenauswahl.
- Neue Funktion: Taskleistensymbol.
- Neue Funktion: Engine-Prozesspersistenz.
- Neue Funktion: Textblock-Nachbearbeitungsmodul.
- Neue Funktion: Schriftart der Hauptausgabeleiste anpassen.
- Neue Funktion: Fenster-Popup-Modus festlegen (angepinnt bleiben).
- Benutzeroberfläche anpassen: Adaptive Komponenten im Win-Stil.
- Behobener Fehler: Systemsprachenkompatibilitätsproblem Nr. 16 .
- Behobener Fehler: WeChat-Bildeinfügungsproblem Nr. 22 .
- Aktualisieren Sie das PaddleOCR-json-Modul
v1.2.1
, um Unterstützung für die Zwischenablage bereitzustellen. Übertragen Sie Bilder schnell über die Zwischenablage, sodass keine temporären Dateien auf der Festplatte gespeichert werden müssen.
v1.2.6 2022.9.1
- Aktualisieren Sie das PaddleOCR-json-Modul, um
v1.2.0
die Erkennungsgeschwindigkeit und -genauigkeit zu verbessern. - Passen Sie die Benutzeroberfläche an: Verwenden Sie das Dropdown-Feld, um die Erkennungssprache bequemer zu wechseln.
- Passen Sie die Benutzeroberfläche an: Sie können Bilder von jedem Ort/jeder Registerkarte im Hauptfenster hineinziehen.
- Fehlerbehebungen: Verbessern Sie die Robustheit des Programms und fügen Sie beim Starten untergeordneter Prozesse weitere Ausnahmebehandlungssituationen hinzu.
- Der Fehler wurde behoben: Das Problem der ungenauen Erkennungsergebnisse für Bilder mit zu schmalen Kanten, Problem Nr. 7, wurde vollständig behoben .
- Optimieren Sie das PP-OCRv3-Modell und passen Sie es an, um das Problem vollständig zu lösen, dass das v3-Versionsmodell langsamer und ungenauer ist als v2. Problem Nr. 4 .
v1.2.52022.7.22
- Neue Funktion: Geplante Aufgaben. Führen Sie nach Abschluss der Bilderkennung Aufgaben wie das automatische Herunterfahren aus.
- Neue Funktion: Optionaler rekursiver Import aller Bilder in Unterordnern beim Ziehen in einen Ordner.
- Passen Sie die Benutzeroberfläche an: Fügen Sie Schnellzugriff auf einige Konfigurationsdateien hinzu.
v1.2.42022.6.4
- Neue Funktion: Erkennen Sie optional Bilder aus der Zwischenablage und kopieren Sie den erkannten Text automatisch.
- Zusatzfunktion: Wenn die Tastenkombination die Zwischenablage-Bilderkennung aufruft und das Programmfenster minimiert wird, wird der Vordergrundstatus wiederhergestellt und in die vordere Position verschoben.
v1.2.32022.5.31
- Neue Funktion: Bilder aus der Zwischenablage lesen. Konfigurieren Sie eine globale Tastenkombination zum Aufrufen dieser Funktion.
v1.2.22022.4.30
- Neue Funktion: Ausgabedateien oder -verzeichnisse nach Abschluss der optionalen Aufgabe automatisch öffnen.
v1.2.12022.4.16
- Das PaddleOCR-json-Modul wurde aktualisiert, um
v1.1.1
einen Fehler zu beheben, durch den falsche Begrenzungsrahmen erhalten werden konnten.
v1.2.02022.4.8
- Sie können optional .md-Dateien mit Bild- und Textlinks generieren, die für ein besseres Erscheinungsbild als Index verwendet werden können.
- Ändern Sie den Stil des Einstellungsfelds und ändern Sie es in ein Bildlauffeld, um mehr Einstellungsoptionen zu ermöglichen.
- Konfigurationselemente können automatisch gespeichert werden, nachdem Benutzer sie geändert haben.
v1.1.12022.3.30
- Der Fehler wurde behoben: Beim Verlassen des Ignorierbereichsfensters wurde der OCR-Unterprozess nicht geschlossen.
v1.1.02022.3.30
- Neue Funktion: Das Fenster „Bereich ignorieren“ zeigt erkannte Textblöcke in gestrichelten Kästchen an.
v1.0.02022.3.28
- „Wo Träume beginnen“
dankbar
Die Kernkomponenten der Engine dieses Projekts sind von PaddlePaddle/PaddleOCR abgeleitet :
Fantastische mehrsprachige OCR-Toolkits basierend auf PaddlePaddle
In diesem Projekt verwendete Bibliotheken:
google/python-gflags
Python-Implementierung des Google-Befehlszeilen-Flags-Moduls.
moses-palmer/pynput
Mit dieser Bibliothek können Sie Eingabegeräte steuern und überwachen.
Infinidat/infi.systray
Ein Windows-Taskleistensymbol mit einem Rechtsklick-Kontextmenü.
Pwm
Pmw ist ein Toolkit zum Erstellen komplexer zusammengesetzter Widgets in Python mithilfe des Tkinter-Moduls.
Bildverarbeitungssoftware der Umi-Serie
Umi-OCR-Batch-Bild-zu-Text-Software◁
Umi-CUT Software zum Entfernen/Zuschneiden/Komprimieren schwarzer Ränder von Stapelbildern