R_文字识别(OCR)

本文介绍利用tesseract包对文字进行识别

当有大批量的图片文字需要转换成文字时,该方法提供了高效的解决方案,不仅支持中英文图片识别,还支持pdf版本识别,是不是功能很强大,话不多说,直接写代码吧:

install.packages("tesseract") #安装包
library(tesseract)
library(askpass) #与tesseract包结合支持PDF文字识别
setwd("E:\\R_study\\文字识别")  #设置工作空间
 #添加中文识别数据库,chi_sim和chi_tra均是中文训练集
tesseract_download("chi_sim") #支持中文简写
tesseract_download("chi_tra") #支持中文繁体
#查看当前语言格式
tesseract_info()
$datapath
[1] "C:\\Users\\ADMINI~1\\AppData\\Local\\tesseract4\\tesseract4\\tessdata/"
$available
[1] "chi_sim" "chi_tra" "eng"     "osd"    

> ##识别英文图片
> text_1 <- ocr("1.jpg",engine = tesseract("eng"))
> cat(text_1)
R is a programming language and software environment for statistical analysis, graphics
representation and reporting. R was created by Ross Ihaka and Robert Gentleman at the
University of Auckland, New Zealand, and is currently developed by the R Development
Core Team.

R is freely available under the GNU General Public License, and pre-compiled binary
versions are provided for various operating systems like Linux, Windows and Mac.

This programming language was named R, based on the first letter of first name of the
two R authors (Robert Gentleman and Ross Ihaka), and partly a play on the name of the
Bell Labs Language S.
> ##识别中文图片
> text_2 <- ocr("2.jpg",engine = tesseract("chi_sim"))
> cat(text_2)
各市、县 () 人民政府,自治区政府各部门、各直属机构:

根据《中华人民共和国文物保护法》《中华人民共和国文物保护法实施条例》 有关规定,现将将
我区第一至第四批 110 处自治区文物保护单位保护范围予以公布。

各地、各有关单位要按照“保护为主、抢救第一、合理利用、加强管理”的工作方针,妥善处理
好文物保护和当地经济建设的关系,确保文物本体及周边环境得到有效保护,努力形成在保护中发
展、在发展中保护的文物事业新局面,为推进文化繁荣发展和文化强区建设贡献力量。

附件: 1. 第一批自治区文物保护单位保护范围

2. 第二批自治区文物保护单位保护范围
3. 第三批自治区文物保护单位保护范围
4. 第四批自治区文物保护单位保护范围
> ##识别中文pdf
> text_3 <- ocr("3.pdf",engine = tesseract("chi_sim"))
Converting page 1 to 3_1.png... done!
> text_3
[1] "《宁夏回族自治区人民政府公报》2017. No. 16                    - 自放区政府文件\n人                                 ae\n自治区人民政府关于公布第一至第四批\nwd     卫      帮 3      有 区围     全\n自治区文物保护单位保护范围的通知\n         宁政发[2017] 56 号\n各市、县〈区) 人民政府,自治区政府各部门、各直属机构\n根据《中华人民共和国文物保护法》《中华人民共和国文物保护法实施条例》有关规定,现将将\n我区第一至第四批 110 处自治区文物保护单位保护范围予以公布。\n各地、各有关单位要按照“保护为主、抢救第一、合理利用、加强管理”的工作方针,妥善处理\n, 好文物保护和当地经济建设的关系,确保文物本体及周边环境得到有效保护,努力形成在保护中发\n展、在发展中保护的文物事业新局面,为推进文化繁荣发展和文化强区建设贡献力量。\n附件,1. 第一批自治区文物保护单位保护范围\n2. 第二批自治区文物保护单位保护范围\n3. 第三批自治区文物保护单位保护范围\n4. 第四批自治区文物保护单位保护范围\n宁夏回族自治区人民政府\n2017年710日\n附件 1\n_        人             

猜你喜欢

转载自blog.csdn.net/qingchen98/article/details/106186819