语音笔记：CTC

1.介绍

　　CTC全称，Connectionist temporal classification，可以理解为基于神经网络的时序类分类。语音识别中声学模型的训练属于监督学习，需要知道每一帧对应的label才能进行有效的训练，在训练的数据准备阶段必须要对语音进行强制对齐。对于语音的一帧数据，很难给出一个label，但是几十帧数据就容易判断出对应的发音label。CTC的引入可以放宽了这种逐一对应的要求，只需要一个输入序列和一个输出序列即可以训练。有两点好处：不需要对数据对齐和一一标注；CTC直接输出序列预测的概率，不需要外部的后处理。

　　在端到端的语音识别中有以下问题：

　　　　1).输入语音序列和标签（即文字结果）的长度不一致
　　　　2).标签和输入序列的位置是不确定的（对齐问题）

　　即长度问题和对齐问题，多个输入帧对应一个输出或者一个输入对多个输出。

2.结构

　　系统可以通过双向rnn进行建模。RNN用来训练得到每个时刻不同音素的概率分布。
　　输入：按时序输入的每一帧的特征。
　　输出：每一个时刻的输出，是一个softmax，表示K+1个类别的不同概率，K表示音素的个数，1表示blank。（分类问题，是某个音素or空白）

　　对于给定时序长度为T的输入特征序列和任意一个输出标签序列π={π1,π2,π3,….,πT}。输出为该序列的概率为每个时刻相应标签的概率乘积：

　　把上式中的pr概率写成y，就变为论文中的原始公式（y表示softmax输出的概率）：

3.损失函数

　　因为输出序列和最后的训练标签一般不等长，我们用x表示输入序列，y表示对于的标签，a表示我们之前预测的序列：采用一个many-to-one的对应准则β（去除blank和重复），使上述的输出序列与给定的标签序列对应，比如（a,-,b,c,-,-）和（-,-,a,-,b,c）都映射成标签y（a,b,c）。

　　 $\beta ^{-1}$ 表示β的逆过程，即one-to-many，也就是把（a，b，c）映射成有重复和blank的所有可能，所以最终的标签y为给定输入序列x在LSTM模型下各个序列标签的概率之和：

　　所以给定一个输入序列x和一个标注l*，LSTM的目标函数最大化上述概率值（最小化负对数）。

1.介绍

2.结构

3.损失函数

猜你喜欢