文章目录

1、CTC Loss 出现的背景
- - 例1：用于图像文本识别的CRNN网络
  - 例2：语音识别
2、CTC Loss 的总体思想
3、Forward-Backward 算法
- 3.1 合法路径的约束条件
- 3.2 Forward-Backward 算法的数学推导
4、CTC 的训练（目标函数求导）
5、解码算法
6、CTC Loss 的优缺点

CTC Loss 是一种不需要数据对齐的，广泛用于图像文本识别和语音识别任务的损失函数。

论文：《Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks》
《连续形式的时序数据分类：用递归神经网络标记非分段序列数据》

论文发表时间：ICML 2006

注：这篇博客来源于本人组会汇报时的文档，因此很多内容是直接从文档中截图的。

1、CTC Loss 出现的背景

到目前为止，还不可能将RNN直接应用于序列数据的标记。问题在于标准神经网络的目标函数是为训练序列中的每个点分别定义的，因此RNN只能训练一系列独立的标签分类。这意味着训练的序列数据必须被预分段并标记。

标记未分割序列数据是现实世界序列学习中普遍存在的问题。这在感知任务中尤其常见，如图像文本识别（OCR）、姿势识别、语音识别（ASR）。

在这些领域中，所面临的一个问题是神经网络的输出与ground truth的长度不一致，导致loss难以计算。

例1：用于图像文本识别的CRNN网络

在这里插入图片描述
考虑一种非常简单的方法，通过将图片划分为几个竖直方向的图像，分别识别每列小图片中的文字，从而实现整体文本的识别。则每一列输出都需要对应一个字符元素。用 - 表示blank（空白），预测值（-s-t-aatt-e-）和ground truth（state）的长度不一致，采用常规的损失函数（cross entropy、MSE等）计算时需要先进行对齐才能计算损失。

进行对齐就需要在训练之前的数据标注阶段在训练集图片中标记出每个字符的真实文本和在图片中的位置。但在实际情况中，标记这种对齐样本非常困难，其工作量非常大。并且由于每张样本的字符数量不同，字体样式不同，字体大小不同，导致每列输出并不一定能与每个字符一一对应。

例2：语音识别

在这里插入图片描述
上图中的语音是HELLO。有人说话快，有人说话慢。那么如何进行语音帧对齐一直是困扰语音识别领域的巨大难题。

除了数据标注的困难导致难以对齐外，就算对齐了也存在many to one的问题。那么什么是many to one的问题呢？解码器的规则是将连续的相同字符合并，以及去掉blank。那么-HEEE-LL-LL-OOOOOOOO-（Mr.Slow）和-HE-L-LOO-（Mr.Fast）都可以解码为HELLO，与ground truth一致。也就是说就算我们将Mr.Slow的label标注为-HE-L-LOO------------，尽管这个label显然是错误的，但通过网络训练，Mr.Slow的网络预测值会非常接近label，如预测值是-H–EE-L-LOO----------。尽管该预测值与ground truth差异非常大，但是该预测值依然可以解码为HELLO。显然这个情况是我们不希望看到的，也非常不利于网络的训练。