论文阅读笔记：《Contextual String Embeddings for Sequence Labeling》 - 代码天地

论文阅读笔记：《Contextual String Embeddings for Sequence Labeling》

其他 2018-11-14 20:14:44 阅读次数: 0

文章引起我关注的主要原因是在CoNLL03 NER的F1值超过BERT达到了93.09左右，名副其实的state-of-art。考虑到BERT训练的数据量和参数量都极大，而该文方法只用一个GPU训了一周，就达到了state-of-art效果，值得花时间看看。

一句话总结：使用BiLSTM模型，用动态embedding取代静态embedding，character-level的模型输出word-level的embedding. 每个词的embedding和具体任务中词所在的整句sequence都有关，算是解决了固定embedding在一词多义方面的短板，综合了上下文信息。

文章重点内容记录：

目前三种主流embedding:

A. 经典embedding

B. character-level 基于特定任务的embedding，不需要预训练，与任务的训练过程同步完成

C. 基于上下文的，由深度LSTM各层hidden state的线性组合而成的embedding

本文模型特点：

A. 模型以character为原子单位，在网络中，每个character都有一个对应的hidden state. -- 这个特点对需要多一步分词的中文来说可能有避免分词错误导致下游function继续错误的弊端。

B. 输出以word为单位的embedding, 这个embbeding由前向LSTM中，该词最后一个字母的hidden state 和反向LSTM中该词第一个字母的hidden state拼接组成，这样就能够兼顾上下文信息。具体说明见下图：

实验结果：

表格中PROPOSED表示文中提出的embedding, word代表经典预训练embedding, char表示任务相关的embedding，可以看出本文的动态embedding + 经典预训练embedding的组合最有效，char-embedding加不加基本没有影响。

模型训练相关参数：

语料库：英文 - 10亿词语料库德文-5亿词语料库

训练过程： 1个GPU跑了一周

时间性能：

10个单词左右句子产生embedding需要10ms左右，20个单词句子基本就涨到20ms，对生产环境来说勉强可以接受。

正在尝试训一版中文动态embedding, 稍晚会补充结果。

如果有理解不到位的地方，欢迎指正。

原创文章，转载请注明出处。

猜你喜欢

转载自www.cnblogs.com/Arborday/p/9960031.html

论文阅读笔记：《Contextual String Embeddings for Sequence Labeling》

flair embedding--《Contextual String Embeddings for Sequence Labeling》阅读笔记

sequence labeling笔记（一）

Sequence Labeling Problem

论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data（CRF

李宏毅机器学习课程笔记8：Structured Learning - Linear Model、Structured SVM、Sequence Labeling

深度学习笔记——理论与推导之Structured Learning【Sequence Labeling Problem】（八）

番外.李宏毅学习笔记.ST4.Sequence Labeling

学习：Bi-LSTM-CRF for Sequence Labeling

Implicitly-Defined Neural Networks for Sequence Labeling

论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)

【论文阅读】Topical Word Embeddings

李宏毅机器学习课程笔记8：Structured Learning - Linear Model、Structured SVM、Sequence Labeling 李宏毅机器学习课程笔记8：Structured Learning - Linear Model、Structured SVM、Sequence Labeling

论文Fast connected-component labeling 阅读

Task 4: Contextual Word Embeddings

用序列标注Sequence Labeling来做event detection

Accelerating BERT Inference for Sequence Labeling via Early-Exit

An Empirical Study on Leveraging Position Embeddings for TOWE 论文阅读笔记

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL

论文阅读 DEFT: Detection Embeddings for Tracking

Sequence Models(Week2)---Natural Language Processing & Word Embeddings

Note - Sequence models - NLP and Word Embeddings (deeplearning.ai)

《Conditional Network Embeddings》论文分析

Question Answering with Subgraph Embeddings【论文笔记】

【论文笔记】Question Answering with Subgraph Embeddings

在TensorFlow RNN 深度学习下 BiLSTM+CRF 实现 sequence labeling

TensorFlow RNN深度学习 BiLSTM+CRF 实现 sequence labeling 序列标注

TensorFlow RNN深度学习 BiLSTM+CRF 实现 sequence labeling 序列标注源码

【论文阅读】Sequence to Sequence Learning with Neural Network

【论文阅读】Sequence to Sequence Learning with Neural Networks

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)