为什么Bert的三个Embedding可以进行相加？ - 代码天地

为什么Bert的三个Embedding可以进行相加？

其他 2020-04-06 16:42:19 阅读次数: 0

这个问题是知乎的这个问题：为什么Bert的三个Embedding可以进行相加？

我觉得解释合理的是这个回答，这个回答解释的是相加的意义

这里的相加是特征交叉而不是特征池化。

神经网络中相加是构造特征交互的方法，类似的还有elementwise乘，减法。

Bert这类的方法一个极大的优势就是通过BPT和字级别把词向量空间的稀疏性压缩下来，如果你在普通的embedding+nn里做这件事情，是有得有失的，好处是长尾的词变得更稠密了，使网络容易学习，对应的缺点就是损失了学的好的词的个性化。这样的操作更有利于神经网络的泛化。

我们怎么在其中找一个平衡点呢？通过特征的交叉，分别是token，position，segment。高阶的交叉带来更强的个性化表达能力，即带来丰富语义的变化。规避了transformer因为位置信息丢失造成的上下文语义感知能力。既能高速并行，又能上下文敏感，这简直让lstm羡慕死了。

而相加，是神经网络特征交叉的一种形式，注意，多个enbedding的向量空间是不同的，不然，相加和池化就没有区别了，只带来信息的聚合，而不是个性化的表达。

这套方法论起源于因子分解机FM。核心是寻找泛化和记忆的平衡，而搞定长尾是又是解决大部分NLP问题的有效方法。预训练又是另外一大神器，结合这个问题想想为什么ELMo没有取得这么好的效果，不得不不说，太妙了。

其他的回答如苏剑林的回答，回答了为什么可以相加。

现在我们将token,position,segment三者都用one hot表示，然后concat起来，然后才去过一个单层全连接，等价的效果就是三个Embedding相加

烟雨人长安

发布了25 篇原创文章 · 获赞 1 · 访问量 1428

私信关注

猜你喜欢

转载自blog.csdn.net/Matrix_cc/article/details/104927328

为什么Bert的三个Embedding可以进行相加？

两个链表存储的数进行相加问题

CAP为什么不能同时满足三个特性

苹果变“软”，三个为什么

Python的pymouse click为什么给了4个参数，却告诉我不能用5个参数，给三个或者两个参数都可以

java 8 BigDecimal进行相加

在UTF-8中，一个汉字为什么需要三个字节？

计算三个数相加的和

三个数相加等于0

编写一个子程序，对两个128位数据进行相加

张正友标定（一）：为什么要进行相机标定

为什么你应该使用 Object.is() 进行相等性比较(译)

迅雷：我们为什么会错过这三个大风口？

分布式CAP定理，为什么不能同时满足三个特性？

分布式CAP定理，为什么不能同时满足三个特性

一切为了落地，为什么PPIO要设计成三个阶段！

穷人为什么会越穷，穷的时候以下三个事情不能干

网络创业012：你为什么还这么穷的三个最容易忽视的理由

三个原因告诉你，为什么选择HTML5大前端？

为什么redis cluster至少需要三个主节点？

为什么那么多人要学Java？这三个原因告诉你

为什么要做word embedding

对key值相同的json数据进行相加合并

对象替换为相同的key 并进行相加

tracert命令返回的三个时间为什么有时会出现1个或2个星号？

DWF是个什么格式，要怎么进行相应的格式转换？

字符集之在UTF-8中，一个汉字为什么需要三个字节？

Python实现：指定三个数相加之和, 使这个三个数乘积最大

读懂这三个关键词，就明白迅雷链为什么受开发者欢迎

一切为了落地，为什么要把PP.io设计成三个阶段！

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)