[文献阅读]——AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

其他 2021-11-19 17:09:09 阅读次数: 0

目录

引言
相关工作
模型
实验
拓展阅读

引言

细粒度方法和粗粒度方法各自的优缺点:

细粒度:
- 作为词汇单元是不完整的
- 但更容易去学习（更少的token types和更多的tokens）
- 不存在分词的错误
粗粒度:
- 作为词汇单元是完整的
- 但不容易去学习（更多的token types和更少的tokens）
- 存在分词的错误

本文通过可视化attention maps表明：

细粒度的方法得到的attention存在“含糊”
粗粒度的方法得到的attention更加合理，但分词错误不可避免

本文工作:

联合细粒度和粗粒度

相关工作

-------BERT的变种--------
XLNET:permutation LM
RoBERTa:new way of training + large data
ALBERT:light-weight
StructBERT:incorporate word and sentence structures
ERNIE2.0:coarse-grained tokens masked
ELECTRA:GAN-style
-------分词的粒度(single)--------
ERNIE:entity level mask
SpanBERT:span mask
-------参数共享--------
Universal Transformer
ALBERT

模型

在这里插入图片描述

图1. AMBERT

两个encoder共享参数。

预训练

预训练损失函数:

fine-grained prediction
coarse-grained prediction

数据集:

Chinese
- fine-grained:就是character
- coarse:word segmentation tool developed at ByteDance
- 分词都是用WordPiece embeddings（？）
English
- fine-grained:就是word
- coarse:
C vs E:Chinese中，coarse word占了47.0%；English中，coarse phrase占了13.7%。

微调

微调损失函数(分类任务):

细粒度输出所对应的预测损失
粗粒度输出所对应的预测损失
两者输出合并所对应的预测损失
细和粗的差别惩罚项

在这里插入图片描述

两个变体

AMBERT-Combo:两个encoder不共享参数
AMBERT-Hybrid:和original AMBERT不同之处在于，一个encoder，且只用一次，该encoder的输出端就是fine-grained和coarse-grained inps的concatenation

实验

多种任务:

分类任务
阅读理解任务(MRC)：评估指标为F1，EM(Exact Match)和accuracy

目前不太明白AMBERT怎么做token级别的分类任务

样例分析:

细粒度的模型无法运用完整的词法单元
粗粒度的模型无法解决不正确的分词
AMBERT既可以运用完整的词法单元，其对于不正确的分词也是鲁棒的

变体分析:

AMBERT VS COMBO
通过计算粗粒度和细粒度的[cls]的相似度发现，AMBERT的相似度远远高于COMBO的
AMBERT VS HYBRID
通过第一层的attention权重发现，AMBERT-Hybrid的细粒度token过分关注于粗粒度token，而AMBERT联合了完整的细粒度和粗粒度的信息

图2. attention maps

拓展阅读

混合精度训练
ADAM

猜你喜欢

转载自blog.csdn.net/jokerxsy/article/details/116668531

[文献阅读]——AMBERT: A PRE-TRAINED LANGUAGE MODEL WITH MULTI-GRAINED TOKENIZATION

跨模态检索论文阅读：Multi-Grained Vision Language Pre-Training: Aligning Texts with VisualConcepts(X-VLM)

论文阅读 | Pre-trained Models for Natural Language Processing: A Survey

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Enriching Pre-trained Language Model with Entity Information for Relation Classification 论文研读

【论文解读】One Teacher is Enough? Pre-trained Language Model Distillation from Multiple Teachers

文献阅读笔记 # CodeBERT: A Pre-Trained Model for Programming and Natural Languages

论文阅读 | ACL2019 Exploring Pre-trained Language Models for Event Extraction and Generation

X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型

Pre-trained Models for Natural Language Processing: A Survey

Using pre-trained word embeddings in a Keras model

论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE）

END-TO-END NAMED ENTITY RECOGNITION AND RELATION EXTRACTION USING PRE-TRAINED LANGUAGE MODELS

【论文笔记】Enhancing Pre-Trained Language Representations with Rich Knowledge for MRC

Encoder-Decoder Models Can Benefit from Pre-trained Masked Language Models in GEC翻译

Making Pre-trained Language Models Better Few-Shot Learners

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing

ZSSeg: A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language

机器学习：self supervised learning- Recent Advances in pre-trained language models

【计算机视觉】Vision and Language Pre-Trained Models算法介绍合集（三）

论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)

CPM:A large-scale generative chinese pre-trained lanuage model

LLMs：《GLM-130B: AN OPEN BILINGUAL PRE-TRAINED MODEL》翻译与解读

阅读笔记 CCL: Cross-modal Correlation Learning with Multi-grained Fusion by Hierarchical Network 总结

论文阅读 | ACL2019 Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

Self-paced Multi-grained Cross-modal Interaction Modeling for Referring Expression Comprehension论文阅读

[文献阅读]—Cross-lingual Language Model Pretraining

RGB-D object recognition and pose estimation based on pre-trained convolutional neural network 阅读记录

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)