python调开源库实现四行代码极简OCR示例

简介

相信不少人都被上周的新闻《复旦博士用130行代码核查核酸报告，800份只需要2分钟》洗眼睛了，哪里的新闻媒体都在报道，好像是什么了不得的大事一样，评论区也有“你怎么不做一个，你上啊”的暴论，本文就给某些键盘侠开开眼界，现在的OCR简单到了什么程度。无脑吹和学历崇拜请自行退出，谁没上过985大学啊，博士生，无非就是科研领域能发一些导师指导的论文罢了，自身有多大造福社会的水平，不需要我说，某些搞科研拿经费的比我更清楚。

需识别图片

在这里插入图片描述
没有拿到详细的纸质核酸报告，就拿张截图示意一下。

代码

import easyocr
reader = easyocr.Reader(['ch_sim']) #选择文字模型
result = reader.readtext('hesuan/1.jpg', detail = 0)#读取图片
print(result) #打印结果

库的安装和注意事项我放最后，免得有些人不耐烦。

结果

在这里插入图片描述

结论

来认真的算下成本，先来看大家最爱吹的代码行数，博士生的那篇文章说是130行代码，为什么这么多，我不晓得，把我的微小型demo加上四行批处理读取加上十行正则表达式规则再加上放入pandas表格再加上几行保存，相信一个完整的能应用的demo也不超过30行。
至于时间成本，800份用2分钟，这个确实快，大概没用深度学习模型用的opencv训练检测特定场景，并且对图像进行过了预处理，用本开源库的话在gpu加速情况下也需要大约5分钟，我估算的，实际的话有闲心可以自己做做。
最后强调一次，开头针对的是没事找事喜欢引导大众舆论的新闻媒体和一些喜欢你行你上的键盘侠，请勿对号入座哦。

安装注意事项

pip install easyocr
##如果下载慢请百度pip -i换源

调用第二行代码的时候会检测本地有没有模型，模型文件夹位于当前路径.EasyOCR\model，比如我的C:\Users\Administrator.EasyOCR\model。
如果网络不行，或者说没有代理，会在线下载不了模型，需要离线把模型放进这个路径里。去这个网址可以下载对应的模型。
在这里插入图片描述

做中文的下载以上几个够了，闲的没事全下载一遍也很快。上不去这个网站的话挂代理，或者找我要。