【论文笔记】Handwriting Recognition in Low-resource Scripts using Adversarial Learning


Handwriting Recognition in Low-resource Scripts using Adversarial Learning
arXiv:1811.01396v5 [cs.CV] 25 Feb 2019
运用对抗学习在较少资源手稿中的手写文字识别
注:限于作者水平,本笔记难免存在不妥之处,欢迎批评指正

Abstract

提出对抗特征变形模块AFDM,该模块在可度量的方式内弹性变形提取特征。
在顶尖的文字发掘与识别框架上测试该变形框架并用AFDM进行增强。
增强网络在低数据体制下作用更优秀,总文字错误率以及mAP都得到改善。

Introduction

现代基于深度学习的方法尝试通过在多样手写风格间学习个体文字或手稿中的局部不变模式以能够鲁棒性地识别手写文本。
而这些算法往往需要大量的数据来训练模型从而能鲁棒性地识别现实世界的手写数据。

data augmentation使得模型更为高效地利用现有数据,同时使用批量正则化及dropout来避免过拟合。
但data augmentation使用的随机变换不能联合写作风格中的差异以及文字中字母复杂的形状。

模型需要输入数据更为不同寻常的变形来学习更高效地利用更多信息丰富的差异,而不是data augmentation中那些简单的变换。

本文提出针对较少手稿资源手写文字检索任务的基于对抗学习的框架来从有限的样本中训练深度网络。

手写图片信息检索分为两类:HWR、HWS
本文提出一个基于词形变化表的生成对抗学习在高维度特征空间使用空间变换增加文本图片,称为AFDM,可防止在spotting中易学习碎片特征。
AFDM和任务网络联合训练,其中AFDM致力于生成hard examples,任务网络试图学习不同差异的不变性。

本文使用CRNN和PHOCNet分别作为手写文字识别和发掘的基准框架。
在这里插入图片描述

4.1Overview

T为任务网络,输入图像为I。
对应任务损失为Ltask,对于word recognition就是CTC损失,对于word spotting就是交叉熵损失。
T被分为三部分TA,TB,R
TA和TB为T的两个卷积部分
R为最终标签预测部分
特征变形网络A和任务网络T对抗训练,推测时只用T

4.2AFDM

模型使用其对抗定位网络A来预测一系列参数θ ,这些参数用于计算变换矩阵Tθ 。
网格生成器通过将Tθ 作用于网格S‘上的点生成取样网格S。
原始特征映射和S一同送入取样器来获得目标特征映射F’。

4.3对抗学习

传统的对抗学习方法包括训练一个模型来学习一个生成器G,用来给出一个从噪声分布Pnoise(z)中取样的向量z,生成一张图片G(z),判别器D从分布Pdata(x)中获取生成图片或真实图片做输入,然后判别其真假。训练网络的主函数使用交叉熵损失。
在这里插入图片描述
对抗学习训练G产生图像统计数据,类似于辨别器无法区分的训练样本,训练D去表示G(z)为假,这在有监督学习的目标函数是几乎不可完成的。
在基于识别的问题中,G被取消,D被保留做引导。

猜你喜欢

转载自blog.csdn.net/weixin_43359312/article/details/107914933
今日推荐