连接时序分类:解决在文本识别、语音识别等任务中,输入和输出不对齐的算法

连接时序分类:解决在文本识别、语音识别等任务中,输入和输出不对齐的算法

Connectionist Temporal Classification.

在文本识别、语音识别等任务中,输入和输出可能不是对齐的,而是受不同人的书写习惯和说话速度影响:

Connectionist Temporal Classification (CTC)正适合这种不知道输入输出是否对齐的情况使用的算法。

为了方便描述,做如下定义,输入(如音频信号)用符号序列$X=[x_1,x_2,...,x_T]$表示,对应的输出(如对应的标注文本)用符号序列$Y=[y_1,y_2,...,y_U]$表示,为了方便训练这些数据,希望能够找到输入$X$与输出$Y$之间精确的映射关系。

输入和输出的特点:

  • $X$和$Y$都是变长的;
  • $X$和$Y$的长度比也是变化

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131672313