从图像中检测和识别表格,北航&微软提出新型数据集 TableBank

纯学术 的识别表格的文章:

http://hrb-br.com/5007404/20190321A0B99Y00.html

https://github.com/doc-analysis/TableBank

该研究中,来自北航和微软亚研的研究者联合创建了一个基于图像的表格检测和识别新型数据集 TableBank,该数据集是通过对网上的 Word 和 Latex 文档进行弱监督而建立的。该数据集包含 417K 个高质量标注表格,通过此数据集作者利用深度神经网络 SOTA 模型建立了数个强大的基线,从而助力更多研究将深度学习方法应用到表格检测与识别任务中。目前 TableBank 已开源。

扫描二维码关注公众号,回复: 5747975 查看本文章

本文给出该数据集的下载地址,如果有人研究表格识别问题,这个下载链接会方便一些。(本链接是从官方获得的,官方下载较慢,于是分享下自己保存的地址)

链接:https://pan.baidu.com/s/1bZJuOBVhNt85S222eKgimA
提取码:    6q9v
    

猜你喜欢

转载自www.cnblogs.com/devilmaycry812839668/p/10642021.html