增值税发票识别,全票面OCR解析

    

随着经济的发展,业务越来越多,大家对于发票的需求也越来越大。所以就不能还跟随着原先的老形式,进行手动输入,为了更方便快捷我们就开发了增值税发票自动识别的工具。

增值税发票内容信息自动扫描识别提取软件,是一款针对增值税发票以及常见的表单、票据等纸质文档数据扫描识别的产品,利用OCR识别技术,对增值税发票扫描识别,快速完成表单、票据的信息采集。

可实现全国通用的表格识别、票据识别,尤其是增值税发票扫描识别,具有行业推广性,增值税发票扫描识别可以直接输出excel表格数据,对于购买方、销售方的名称和纳税人识别号可以自动提取。

增值税发票内容信息自动扫描识别提取软件具有强大的扩展性,通过系统开放的模板编辑工具可以满足多种格式化表单票据数据采集的需求。

我们先来研究一下OCR,理想情况,OCR识别率要达到95%以上,才能真正的给行业带来效益。那么要达到这么高的识别率,最起码要做到哪些基本的图像处理呢?想必大家能想到的无非是以下这些,譬如图像纠偏,图像方向检测,图像分色,印章提取和去除,包括红色、绿色、蓝色表格线的滤除,还有由于针式打印机导致的字符链接问题。只有把这些基本的因素处理到位,才能确保OCR拥有高识别率,让财务人员手工修改量达到最少。

我们来看看目前能识别增值税发票上的哪些要素。理想状态是增值税发票扫描识别后信息统统输出,但是目前没有见到这样的OCR识别结果。所以我们今天只讨论市面上成熟的识别要素,自上而下的总结,发票代码、发票号码、开票日期、税率、金额、税额、价税合计大写、价税合计小写、购货单位名称、购货单位纳税人识别号、销货单位名称、销货单位纳税人识别号。至于大家问到的明细识别和备注栏识别,在这里不做深究,因为一般是用来做三单匹配的。

识别软件的界面如下:

现在市面上主要识别的区域如下:

下面是导出的Excel表格样式:

此外,增值税发票内容信息自动扫描识别提取软件,还可以根据客户的需求,定制模板,并且提供开发接口,与客户的内部系统完成对接,实时传输增值税发票的数据!

猜你喜欢

转载自blog.csdn.net/OCR_Sinosecu/article/details/83302104
今日推荐