CTC Loss 数学原理讲解:Connectionist Temporal Classification

CTC Loss 是一种不需要数据对齐的,广泛用于图像文本识别和语音识别任务的损失函数。

论文:《Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks》
《连续形式的时序数据分类:用递归神经网络标记非分段序列数据》

论文发表时间:ICML 2006

注:这篇博客来源于本人组会汇报时的文档,因此很多内容是直接从文档中截图的。

1、CTC Loss 出现的背景

到目前为止,还不可能将RNN直接应用于序列数据的标记。问题在于标准神经网络的目标函数是为训练序列中的每个点分别定义的,因此RNN只能训练一系列独立的标签分类。这意味着训练的序列数据必须被预分段并标记。

标记未分割序列数据是现实世界序列学习中普遍存在的问题。这在感知任务中尤其常见,如图像文本识别(OCR)、姿势识别、语音识别(ASR)。

在这些领域中,所面临的一个问题是神经网络的输出与ground truth的长度不一致,导致loss难以计算。

例1:用于图像文本识别的CRNN网络

在这里插入图片描述
考虑一种非常简单的方法,通过将图片划分为几个竖直方向的图像,分别识别每列小图片中的文字,从而实现整体文本的识别。则每一列输出都需要对应一个字符元素。用 - 表示blank(空白),预测值(-s-t-aatt-e-)和ground truth(state)的长度不一致,采用常规的损失函数(cross entropy、MSE等)计算时需要先进行对齐才能计算损失。

进行对齐就需要在训练之前的数据标注阶段在训练集图片中标记出每个字符的真实文本和在图片中的位置。但在实际情况中,标记这种对齐样本非常困难,其工作量非常大。并且由于每张样本的字符数量不同,字体样式不同,字体大小不同,导致每列输出并不一定能与每个字符一一对应。

例2:语音识别

在这里插入图片描述
上图中的语音是HELLO。有人说话快,有人说话慢。那么如何进行语音帧对齐一直是困扰语音识别领域的巨大难题。

除了数据标注的困难导致难以对齐外,就算对齐了也存在many to one的问题。那么什么是many to one的问题呢?解码器的规则是将连续的相同字符合并,以及去掉blank。那么-HEEE-LL-LL-OOOOOOOO-(Mr.Slow)和-HE-L-LOO-(Mr.Fast)都可以解码为HELLO,与ground truth一致。也就是说就算我们将Mr.Slow的label标注为-HE-L-LOO------------,尽管这个label显然是错误的,但通过网络训练,Mr.Slow的网络预测值会非常接近label,如预测值是-H–EE-L-LOO----------。尽管该预测值与ground truth差异非常大,但是该预测值依然可以解码为HELLO。显然这个情况是我们不希望看到的,也非常不利于网络的训练。

由于连续序列数据的对齐难题,学者提出了一种对不需要对齐的Loss计算方法:CTC Loss。

CTC Loss被广泛应用于文本识别和语音识别中,接下来根据语音识别的例子介绍CTC Loss。

2、CTC Loss 的总体思想

首先要明确CTC Loss的计算对象是神经网络经过softmax归一化之后的输出矩阵和ground truth。

CTC Loss 不要求输出矩阵和ground truth的大小相同。输出矩阵的维度为N×T,其中N是类别数(在英文的语音识别中N=27,即26个英文字母和blank),T是语音长度(T个语音帧)。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、Forward-Backward 算法

3.1 合法路径的约束条件

以l=apple为例,按照时间序列(T=8)展开。B(–ap-ple)=aab对应的路径为:

在这里插入图片描述
为了让所有的路径在图中都有唯一、合法的表示,节点转换有如下约束:

在这里插入图片描述

这些约束规则导致合法路径的数量大大减少。根据以上约束规则,所有映射为l=apple的合法路径为:

在这里插入图片描述

3.2 Forward-Backward 算法的数学推导

在这里插入图片描述
前向和反向过程的计算示意图如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
示例:

在这里插入图片描述
在这里插入图片描述

有论文证明,尽管可以通过并不复杂的递归运算得到p(l│x),但这种运算无法避免数值下溢的问题。因此需要考虑其他方法进行计算。

4、CTC 的训练(目标函数求导)

在这里插入图片描述
公式(13)是forward-backward算法的关键,以T=6,l=ab为例解释(13):

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
以单层LSTM作为RNN网络,RNN-CTC模型的总体结构为:

在这里插入图片描述

5、解码算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6、CTC Loss 的优缺点

CTC最大的优点是不需要数据对齐。

CTC的缺点来源于三个假设或约束:

(1)条件独立:假设每个时间片都是相互独立的,但在OCR或者语音识别中,相邻几个时间片中往往包含着高度相关的语义信息,它们并非相互独立的。

(2)单调对齐:CTC要求输入与输出之间的对齐是单向的,在OCR和语音识别中,这种约束是成立的。但是在一些场景中(如机器翻译),这个约束并不成立。

(3)CTC要求是输入序列的长度不小于标签数据的长度,反之便无法使用。

猜你喜欢

转载自blog.csdn.net/qq_43799400/article/details/129243851
CTC