使用tesseract-ocr实现图片文字识别 docker版

其他 2020-09-19 11:06:24 阅读次数: 0

前言

工作需要，有大量图片上的文字需要识别（比如英文小说）。所以打算安装一个Tesseract，然后进行一点orc方面的开发。

docker版tesseract-ocr

通过使用docker镜像，可以省去安装环节，轻松的实现ocr。

单张图片识别，直接启动镜像，将图片文件夹挂载到容器内，调用entrypoint命令识别。

# 拉镜像
docker pull jitesoft/tesseract-ocr:20.04
# 直接指定图片地址，进行识别
docker run -v ~/文档/_04dockervolume/anaconda3/notebooks:/tmp jitesoft/tesseract-ocr:20.04 /tmp/1.png stdout

如果有大量图片需要处理，可以：

cd ~/文档/_04dockervolume/anaconda3
#创建一个init.sh，以便在镜像中执行，这里如果多层文件夹的话，改为函数，递归调用即可。
cat <<EOF > init.sh
#! /bin/bash
indir=\$1
for f in \$indir/*
do
  tesseract \$f stdout
done
EOF

# 输出内容合并到1.txt中
docker run  --rm \
-v ~/文档/_04dockervolume/anaconda3:/sh  \
-v ~/文档/_PIC2BOOK/BOOK4/book/1:/pic   \
--entrypoint /bin/sh \
jitesoft/tesseract-ocr:20.04 \
/sh/init.sh /pic >> 1.txt

根据镜像反推安装过程

我们通过history，反推这个镜像的Dockerfile：

docker history jitesoft/tesseract-ocr:20.04 --format "table {
    
    {.ID}}\t{
    
    {.CreatedBy}}" --no-trunc

# RUN |5 TESSERACT_VERSION=4.1.1 LEPTONICA_VERSION=1.79.0 TESSERACT_VERSION=4.1.1 LEPTONICA_VERSION=1.79.0 TARGETARCH=amd64 /bin/sh -c tar -xzhf /tmp/tess/tess-${TARGETARCH}.tar.gz -C /usr/local  && groupadd -g 472 -r tesseract  && useradd -u 472 -r -g tesseract tesseract  && apt-get update  && apt-get -y install libgomp1 libgif7 libwebpmux3 libwebp6 libopenjp2-7 libpng16-16 libjpeg9 libtiff5 zlib1g wget  && chmod -R +x /usr/local/bin  && chown -R tesseract:tesseract /usr/local/share  && rm -f /usr/local/lib/*.a  && apt-get autoremove -y  && apt-get clean -y

猜你喜欢

转载自blog.csdn.net/weixin_36572983/article/details/105478190

使用tesseract-ocr实现图片文字识别 docker版

图片文字OCR识别-tesseract-ocr

开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用

java图片文字识别tesseract-ocr

图片文字识别开源工具Tesseract-ocr

Tesseract-OCR从入门到精通之windows环境实现图片文字识别

Java中使用tess4J（Tesseract-OCR）进行图片文字识别（支持中文）

Java中使用tess4J（Tesseract-OCR）进行图片文字识别

使用Tesseract-OCR训练文字识别记录

linux下python使用tesseract-ocr进行图片识别

使用Tesseract对图片文字OCR识别

识别图片tesseract-ocr的配置

tesseract-ocr 使用java进行识别

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

vue中使用tesseract实现OCR/文字识别(识别图片中的文字)

Tesseract-OCR的使用

mac上文字识别(Tesseract-OCR for mac )

Mac下Tesseract-OCR文字识别新手使用入门

Tesseract-OCR 识别中文

提取图片文字——linux下tesseract-ocr安装编译

tesseract-ocr+java实现图片文字识别

如何使用tesseract-ocr4.0识别图片文字

图片文字识别：Tesseract OCR库在Python中基本使用

tesseract-ocr图片识别开源工具

Tesseract-OCR识别图片验证码

python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法

python集成Tesseract-OCR实现光学字符识别

Tesseract-OCR-01-图片文字识别

Tesseract-OCR-03-图片文字识别

Tesseract-ocr视觉学习-验证码识别及使用

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)