【学习】domain adaptation、BERT


一、domain adaptation领域适应

在这里插入图片描述
训练资料和测试资料分布不一样。
域转移domain shift:训练和测试数据有不同的分布。
在这里插入图片描述

domain shift

在这里插入图片描述
想法:通过源数据训练模型,然后通过目标数据微调模型
挑战:只有有限的目标数据,所以要小心过度拟合
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

domain adversarial training在这里插入图片描述

希望他们的分布没有差异
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
右边的好一点,可以让他们远离界限,下面就是这种做法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

domain generalization

没有未知领域的资料
在这里插入图片描述

二、自监督学习

在这里插入图片描述
在这里插入图片描述

多语言BERT的跨语言能力

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
无视不同语言的差别,了解语义。

在这里插入图片描述
在这里插入图片描述
MRR分数越高越好
在这里插入图片描述
在这里插入图片描述
实际上BERT在做QA的时候用的是同一种语言,可以看出语言之间是有差异的,只是没找到。
在这里插入图片描述
我们找到英文和中文符号之间的平均之后,得到差距,就能互换了
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

交叉学科能力

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
BERT在优化和generalization上都做的好
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
但是还是要有文字语音对应的资料
在这里插入图片描述
有没有可能只有语音资料呢?
在这里插入图片描述
训不了
把VQ进行离散化,加入自注意,不行:
在这里插入图片描述
把这些符号换成文字,可以实现:
在这里插入图片描述
在这里插入图片描述

用人工数据进行预训练

在这里插入图片描述
在这里插入图片描述
通过生成不同规则的人工数据,可以知道前期训练成功的关键因素是什么。

扫描二维码关注公众号,回复: 15651561 查看本文章

在这里插入图片描述
在这里插入图片描述
人工数据的预培训:与从头开始培训相比,平均绝对改进(%)
随机令牌上的预训练产生与从头开始训练相同的性能,没有用
成对资料有用:
在这里插入图片描述
产生连续编号的序列,打乱之后掩码,做的也比较好。
在这里插入图片描述
到底什么能力对NLP任务是有用的呢?
与从头开始培训相比,平均绝对改进(%):
在这里插入图片描述
长序列对于任务是有用的。

猜你喜欢

转载自blog.csdn.net/Raphael9900/article/details/128519591