李宏毅 bert 讲解

原始bert是干嘛的

bert就是transformer的encoder

输入seq,输出seq

先决定盖哪几个,再决定怎么盖
在这里插入图片描述

展示原始的bert

然后输出

输出的就是一个向量,里面就是词典所有的单词的概率(是吗
在这里插入图片描述

里面的linear怎么做的(小参数)

然后跟我那个真实值,最小化,(就是一个分类问题),训练的时候,bert里面的参数和我们那个liner的参数一起训练。
在这里插入图片描述

工作2(好像没啥用)

除了上述的mask之外,还会预测下一个句子在这里插入图d片描述
这个输出的yes或者or,意思就是我这两个句子是不是相接的,后来说这个方法其实没有什么用。

然后就是bert其实它的作用就是填空,但是他却可以使用在其他的任务上,这些任务叫做下游任务(downstream tasks),

下游任务–微调

在这里插入图片描述
就是胚胎干细胞,给东西,可以做很多事情,他去做各式各样的任务,就是fine-tune,其实就是微调,

这些就是bert的实际测试的任务

在这里插入图片描述
表现都是上升的
在这里插入图片描述

在这里插入图片描述
这里面,liner的参数是随机初始化的,然后bert的参数是从学习了填空的预训练以后得到的。

至于为什么把会填空的bert拿过来,因为效果好,(就是好,但是不知道为啥)

下面是用不用训练好的bet模型的差距,前面是预训练的,后面的是随机初始化的,
在这里插入图片描述

下游是semi-supervised : pre-training + fine-tune

案例二: 词性分析
在这里插入图片描述

案例三: 给定一个前提,给定一个结果,让你推断,前提能否得出结果
在这里插入图片描述
bert是怎么做的
在这里插入图片描述
不取cls取任何一个输出理论上都是可以的,bert里面结构都是self-attention,都是互相关联的

案例五:QA

在这里插入图片描述
在这里插入图片描述

bert计算的 苹果 和苹果手机,其实是考虑了上下文的

在这里插入图片描述
在这里插入图片描述
每个向量可以理解成,每一个词的意思

猜你喜欢

转载自blog.csdn.net/missgrass/article/details/122725807