德勤财务机器人搭载发票识别扫描仪

“我们预计到2025年，基础财务可能会被机器人替代。”这是出自德勤中国税务管理咨询合伙人、德勤智慧未来研究院机器人中心成员叶建锋，在关于“德勤机器人引发的财务新变革”主题沙龙上发表的讲话。“小勤人”几分钟就能完成财务几十分钟才能完成的基础工作，且可以7*24不间断工作!“小勤人”将财务人从重复劳动中解放出来。现在只需要财务人员把增值税发票放入扫描仪中进行扫描，不到一分钟的时间，“小勤人”就可以成功查验一张发票并在Excel表中登记结果。

在这当中，发票识别OCR技术发挥了至关重要的作用。它可以快速的对扫描所得图像进行切割、二值化、降噪等处理，极速输出发票信息，由此完全解决了手工录入的难题。一个有发票识别OCR模块的“小勤人”三四个小时就完成了财务人一天的工作。对于一些大型企业，随着企业规模不断扩大、销售业务不断拓展，现有的财务部门开票会感受到日益增长的工作压力。每月需要收集全国数百余家销售客户的数万份销售记录，按照客户的需求开具五千余张增值税发票。繁重的日常工作经常压得开票人员喘不过气，到了月末更是需要日以继夜地加班加点。在开票过程中，还需要收集并识别符合开票标准的销售单类型，再根据客户需求选择特定金额的销售单，从SAP系统中导出待开票的数据，并经手工修改特定要求后，导入金税系统中完成开票操作，并将开票完成的记录回传进SAP，才能最终完成一份开票操作。

引入集成了发票识别OCR技术的“小勤人”之后，通过机器人流程自动化技术的运用，提高了财务部门人员配置的合理性和有效性，达到了人力资源和工作强度的“削峰填谷”。原有的开票人员可以从机械的劳动工作者，转变成了机器人的管理者，原有的大多数开票操作都可以交给机器人自主完成，他们只需要负责等待发票打印完成、审核盖章即可。

现如今，德勤智能机器人中心已经与多家企事业单位建立合作，提供财务自动化流程解决方案。集成了发票识别OCR技术的机器人为财务部门的工作带来效率的提升，帮助财务人员完成大量重复规则化的工作。

我们公司作为一家以OCR识别技术为根基，力争为社会的安全事业贡献力量的知名企业，在人工智能的当今时代，已在金融、证券、政府机关、电信、酒店、银行等多个行业建树颇丰。

OCR识别的技术流程解析，以下是OCR识别在具体技术实现时的步骤流程：

一、OCR识别预处理：灰度化（如果是彩色图像）、降噪、二值化、字符切分以及归一化这些子步骤。经过二值化后，图像只剩下两种颜色，即黑和白，其中一个是图像背景，另一个颜色就是要识别的文字了；降噪在这个阶段非常重要，降噪算法的好坏对特征提取的影响很大。字符切分则是将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的。如果文字行有倾斜的话往往还要进行倾斜校正。归一化则是将单个的文字图像规整到同样的尺寸，在同一个规格下，才能应用统一的算法。

二、特征提取和降维：特征是用来识别文字的关键信息，每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母来说，这个特征提取是比较容易的，因为数字只有10个，英文字母只有52个，都是小字符集。对于汉字来说，特征提取比较困难，因为首先汉字是大字符集，国标中光是最常用的第一级汉字就有3755个；第二个汉字结构复杂，形近字多。在确定了使用何种特征后，视情况而定，还有可能要进行特征降维，这种情况就是如果特征的维数太高（特征一般用一个向量表示，维数即该向量的分量数），分类器的效率会受到很大的影响，为了提高识别速率，往往就要进行降维，这个过程也很重要，既要降低维数吧，又得使得减少维数后的特征向量还保留了足够的信息量（以区分不同的文字）。

三、分类器设计、训练和实际识别：分类器是用来进行识别的，就是对于第二步，对一个文字图像，提取出特征给分类器，分类器就对其进行分类，告诉你这个特征该识别成哪个文字。在进行实际识别前，往往还要对分类器进行训练，这是一个监督学习的案例。

四、OCR识别后处理：后处理是用来对分类结果进行优化的，第一，分类器的分类有时候不一定是完全正确的，比如对汉字的识别，由于汉字中形近字的存在，很容易将一个字识别成其形近字。后处理中可以去解决这个问题，比如通过语言模型来进行校正——如果分类器将“在哪里”识别成“存哪里”，通过语言模型会发现“存哪里”是错误的，然后进行校正。第二，OCR识别图像往往是有大量文字的，而且这些文字存在排版、字体大小等复杂情况，后处理中可以尝试去对识别结果进行格式化。

德勤财务机器人搭载发票识别扫描仪

猜你喜欢