ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍

阅读文章：《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》

　　这篇文章是对一项中文检测和识别比赛项目（RCTW）的介绍和总结，这是一项新的专注于中文识别的竞赛。这项竞赛的特点在于，包含12263张标注过的中文数据集，有两项任务，文本检测以及end-to-end文本识别。竞赛时间从2017年1月20日至3月31日，共收到19个team的23个有效的提交结果。下面从几个方面进行详细说明。

-数据介绍
-任务及评价标准
-结果总结与分析

1. 数据介绍
　　数据集的名字叫做CTW-12k，由12263张包含中文的自然场景图片组成，其中大部分是直接由摄像头或手机拍摄，少部分为生成图像，并且每张图像至少包含一行中文。
　　数据的标注均通过标注工具手工标注完成，通过绘制四边形来标注一个文本行，而不是以单词为单位进行标注，每个文本行的内容以UTF-8字符串进行标注。在数据集中存在字体、布局和语言等多样性。
　　数据集划分为两部分，训练集和验证集包含8034张图片，这部分数据集的图像和标注均在比赛时发布。测试集包含4229张图片，并在截止日期前一个星期发布。

2. 任务及评价标准
　　任务分为两个：文本检测，end-to-end文本识别。与之前的比赛不同的是，没有设置cropped text recognition task，因为相比之下，进行end-to-end的识别设定效果更好。

1） Task 1 - Text Localization
　　文本定位是一项传统的竞赛任务，目标是确定图像中包含文本行的四边形位置，同时提供每个四边形的置信分数。
　　对于这项任务，主要采用的评价标准为mean Average Precision(mAP)。mAP是PR曲线以下的归一化面积值，即所有类别PR曲线下面积的平均值，由于本次竞赛中只有文本这一个类别，故mAP也就等同于AP。
　　原始的AP是定义在轴对齐的bounding box基础上的，而本次竞赛项目中的文本由四边形定位，所以在四边形上计算IoU而不是矩形，如下图所示，计算方法采用python的shapely package。检测结果满足以下两个条件认定为正确：(1)IoU大于0.5；(2)groundtruth没有匹配其他检测结果。当多个检测结果都匹配至同一groundtruth时，选择IoU最大的一个。

　　之前的竞赛普遍使用F-score作为评价标准，F-score是在P和R之间做出一些调整，但AP在调整中保持不变。本任务以AP作为主要的评价标准，并以此根据提交结果进行排行。为了与之前的竞赛对比，同时对每一个提交结果计算出最大F-meansure分数，两个分数均在结果表上列出。

　　(a) PR（precision-recall）曲线：以查全率R为横坐标，以查准率P为纵坐标的曲线。查准率关心的是”预测出正例的正确率”即从正反例子中挑选出正例的问题。查全率关心的是”预测出正例的保证性”即从正例中挑选出正例的问题。

　　(b) mAP：每个类别都可以绘制一条PR曲线，曲线下方与X轴之间的面积为AP值，对每个类的AP再求mean，就是mAP。
　　(c) ROC曲线：曲线的坐标分别为真正例率（TPR）和假正例率（FPR）

　　(d) F-score：综合考虑PR曲线中P和R两个指标
当β=1β=1时称为F1-score，即P和R的权重相同。
2）Task 2 - End-to-End Recognition
　　该任务的目标是同时进行文本定位和识别，参与队伍要求提交检测结果的同时提交识别结果，检测分数替换为识别的文本内容。
　　评价标准为计算识别结果与groundtruth之间的编辑距离，评价过程包括两步：首先，每一个检测结果匹配为一个groundtruth（对应最大的IoU）或”None”（没有与groundtruth的IoU大于0.5的检测结果），如果多个检测结果与同一groundtruth匹配，则选择IoU最大的一个作为检测结果，其他的均设为”None”；然后，计算所有匹配对的编辑距离，如果一个检测结果被标记为”None”，则计算检测结果的文本内容与空字符之间的距离，求最后的平均编辑距离average edit distance(AED)。这个方法同时考虑了检测和识别对结果的影响。
　　为了与其他比赛相比较，还计算了normalized edit distance(NED)。

3. 结果总结与分析
1）结果提交
Table 1 总结了Task 1的top10，并在结果列表中列出了AP和最大F-measure分数。

其中排在前3名的队伍：
（i）”Foo&Bar”：采用的是faster-rcnn算法，网络为resnet101及基于imagenet预训练的模型。
（ii）”NLPR_PAL”：采用Deep Direct Regression Network方法(我的上一篇论文笔记中提到的论文)。
（iii）”gmh“：CNN算法。

Table 2列举了Task 2的结果：

2）结果分析
Task 1：普遍的错误有两种，(1)由于text line过长导致的错误；(2)检测结果有冗余。
Task 2：主要错误有3种，(1)错误的检测结果导致识别错误；(2)视角问题导致的文字形变；(3)相似的文字结构导致的错误识别（如“园”和“国”）
---------------------

转自：https://blog.csdn.net/rabbithui/article/details/79107208?utm_source=copy

ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17) 介绍

猜你喜欢