自然图像中的字符识别:Chars74K 数据集

字符识别是 研究人员从计算机早期开始工作 视觉。随着当今相机的无所不在,应用 的自动字符识别比以往任何时候都更广泛。为 拉丁字母,这在很大程度上被认为是一个已解决的问题 受限情况,例如扫描文档的图像 包含常用字符字体和统一 背景。但是,使用流行的相机获得的图像和 手持设备仍然对 字符识别。这个问题的挑战性方面 在此数据集中很明显。
数据集论文介绍:http://personal.ee.surrey.ac.uk/Personal/T.Decampos/papers/decampos_etal_visapp2009.pdf
在此数据集中,可以使用英语和卡纳达语中使用的符号。

在英语中,拉丁字母(不包括重音)和 使用印度教-阿拉伯数字。为简单起见,我们称之为 “英语”字符集。我们的数据集包括:

  • 64个班级(0-9,A-Z,A-Z)
  • 从自然图像中获得 7705 个字符
  • 使用平板电脑的 3410 个手绘字符
  • 62992 从计算机字体合成字符

这总共提供了超过 74K 的图像(这解释了名称 数据集)。
卡纳达语的复合符号是 被视为单个类,这意味着 辅音和元音导致我们数据集中的第三类。 显然,这不是此类 脚本,因为它会导致非常大量的 类。但是,我们决定将此表示形式用于 我们的基线评估出现在[deCampos等人]中,作为一种方式 以评估此问题的通用识别方法。
数据集网站地址:http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_41194129/article/details/131352007