[开源代码与数据集]文字检测与识别

原文链接:http://valser.org/thread-1200-1-1.html

下面有些链接好像无法访问,先存着在说吧~

端到端场景文本识别



场景文本检测



场景文本识别



中文场景文本检测与识别数据集Dataset: (http://mclab.eic.hust.edu.cn/icdar2017chinese/)
Competition Report: ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17). B Shi, C Yao, M Liao, M Yang, P Xu, L Cui, S Belongie, S Lu, X Bai (arXiv preprint arXiv:1708.09585)


场景语种识别数据集




多方向文本检测数据集(MSRA-TD 500)





多方向文本识别数据集(HUST-TR 400)

  • C. Yao, X. Bai, W. Liu. A Unified Framework for Multi-Oriented Text Detection and Recognition. IEEE Transactions on Image Processing (TIP), 23(11): 4737 - 4749, 2014. [[url=http://mc.eistar.net/UpLoadFiles/Papers/[21]%202014%20TIP%20Yaocong.pdf]PDF[/url]][HUST-TR 400 Dataset]




后续会继续更新

原文链接:https://wanwang.aliyun.com/info/1584694.html

本文列举了用于手写识别的免费的优秀数据集,并给出可用的下载地址

一. 国内研究机构发布的数据集

HCL2000脱机手写汉字库 http://www.datatang.com/data/13885

北京邮电大学模式识别实验室发布的数据。HCL2000是目前最大的脱机手写汉字库,共有1000个人书写,除了汉字样本库外,还有一个对应的书写者信息库,记录了书写者的年龄、职业、文化程度等信息,用于研究相关影响因素。目前此数据库免费向研究者公开。

这是一份非常优秀的数据,是汉字识别的首选测试数据库。 
2. CASIA中文手写数据集 http://www.datatang.com/data/13227

中科院自动化所发布的中文手写数据。包括187个人通过Walcom笔在线输入的手写文本。

CASIA英文手写数据集 http://www.datatang.com/data/13226

中科院自动化所发布的英文手写数据。包括134个人通过Walcom笔在线输入的手写文本。

基于Wacom笔的用户手写Text数据 http://www.datatang.com/data/16613

中国科学院软件研究所笔式和多通道人机交互研究组发布的数据。包含12用户在执行手写Text任务时Stroke层数据和Point层数据两部分。

留学生手写汉字 http://www.datatang.com/data/10089

北京语言大学采用数字墨水技术采集的留学生手写汉字库(样例)

二. 国外研究机构发布的数据集

USPS美国邮政服务手写数字识别库 http://www.datatang.com/data/11927

用于数字的手写识别。库中共有9298个手写数字图像(均为16*16像素的灰度图像的值,灰度值已被归一化),其中7291个用于训练,2007个用于测试。

手写数字MNIST数据集 http://www.datatang.com/data/3082

用于数字的手写识别。库中共有6万个训练集和1万个测试集。

用于笔交互的手写数字识别(UCI) http://www.datatang.com/data/578

用于数字的手写识别。库中共有44个人的250个手写数据例子

用于处理和理解手写阿拉伯语的数据集 http://www.datatang.com/data/2188

用于阿拉伯语的手写识别。包括51个人的2万个手写数据。

猜你喜欢

转载自blog.csdn.net/qq_36396104/article/details/83903801