课程向:深度学习与人类语言处理 ——李宏毅,2020 (P29)

AALBERT

Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation

李宏毅老师2020新课深度学习与人类语言处理课程主页:
http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html
视频链接地址:
https://www.bilibili.com/video/BV1RE411g7rQ
图片均截自课程PPT、且已得到李宏毅老师的许可:)

考虑到部分英文术语的不易理解性,因此笔记尽可能在标题后加中文辅助理解,虽然这样看起来会乱一些,但更好读者理解,以及文章内部较少使用英文术语或者即使用英文也会加中文注释,望见谅



前言

在上篇中的上半篇P28-1中,我们学习了过去自监督学习在语音中的应用,主要分为两大类:CPC和APC,两类是根据不同的损失函数划分的。在下一半篇P28-2中将讲解BERT在语音中如何自监督使用。在下半篇P28-2中,我们学习到了BERT预训练模型在语音上的应用,主要有三大类:wav2vec、SLU BERT、Mockingjay,以及语音BERT的前沿研究热点

而在本篇中,我们学习到在语音方面前沿的AALBERT的有关内容

I AALBERT 语音版ALBERT

1.1 Recap:ALBERT 回顾ALBERT模型

ALBERT以更少的参数量来获得更好的BERT效果,主要来说ALBERT有以下三大特点:
● Factorize Embedding Matrix
● Share Parameters across layer
● Model Configuration between BERT

1.1.1 减参

在这里插入图片描述
在ALBERT中,会把原始BERT的3万 * 768 的矩阵(3万个token,每一个token用768个参数组成的向量表示)替换成依旧是3万个token,但每个token的参数量由768变成128,再通过一个线性变化转换为768个参数。参数量从原本BERT的23.04M变为3.898M

1.1.2 共享参数

在这里插入图片描述
对于原始BERT而言,每一层是对应到语义中不同的深度的,就比如浅层对应一些基本的词序、词性等,而深层将会对应到更为复杂的指代关系等,所以每一层的参数是不一样的,学到的语义也是不同的。而ALBERT只用1层重复12次来替代原本BERT的12层,相当于12层共享同一参数。其实在预训练的时候这样做效果并没有差很多,但减少的参数量是可观的。

1.1.3 超参数设置

在这里插入图片描述
ALBERT和BERT的各种超参数设置与模型效果如上图。ALBERT参数设置明显更小。

有趣的是,你会发现在模型效果比较上只有ALBERT的xxlarge效果最好,但其实这个xxlarge和BERT large参数量没差特别多,也就是说虽然ALBERT只有1层,但这1层的参数量也是可以很多的很多的。虽然这样的做法会减少参数,但因为隐藏层参数过多,导致速度很慢。

1.2 AALBERT

1.2.1 difference 语音和文字的ALBERT差别

在这里插入图片描述
语音版的AALBERT与文字版的ALBERT的差别就是输入和输出的格式不同,在ALBERT里输入的MASK掉token的文字序列,而在AALBERT中我们的输入是有被MASK为0的frame和替换的frame组成的frame语音序列。

1.2.2 Pre-Training 预训练

在这里插入图片描述
AALBERT和Mockingjay的预训练方式一样,都是通过自监督学习的方法来还原经过噪音处理的声音讯号,训练目标就是原始输入的声音讯号 与还原后的声音讯号的 L1 损失值。

1.2.3 Classification 下游任务

在这里插入图片描述
对于 Phoneme 音素分类这一下游任务而言,有两种使用预训练模型的方法:

  1. 对每一层的语音向量表示进行加权求和,权重是学习而来,但每一层的语音向量是固定的。
  2. 微调整个预训练模型

在这里插入图片描述
对于语者验证任务而言,分为两种环境:

  1. Utterance-level:将输入的一段音讯通过预训练模型编码成一串语音向量表示,再将这些语音向量表示用一个向量替代,再由这个向量进行分类任务。
  2. Frame-level:同样,将输入的一段音讯通过预训练模型编码成一串语音向量表示,但我们会对每一个语音向量进行分类判断。

至此,语音版的ALBERT的有关内容学习完毕。

猜你喜欢

转载自blog.csdn.net/qq_44574333/article/details/108501669