文本分类《Multilingual Hierarchical attention networks for document classification》 - 代码天地

文本分类《Multilingual Hierarchical attention networks for document classification》

其他 2020-10-19 16:48:29 阅读次数: 0

Motivation：

在多语言的文本分类问题上一般都面临两个问题：一是计算成本会随着语言数量的增加而线性增加；模型缺乏不同语言之间知识迁移能力，也就是在一种语言上习得的知识不能应用到另一种语言上。当前解决上述问题的方案都需要不同语言的文本具有相同的标签，但是这个要求往往很难得到满足。因此，本文提出一种多语言的分层注意力模型，该模型在保证尽量少添加参数的同时，使模型具有知识迁移的能力。

单语模型结构：

分层注意力网络实现文本分类一般要经过三个步骤：

编码层：一般采用全连接、GRU或双向GRU；
注意力层：分别在单词级别和句子级别给予较大权重；
分类层：对句子级别注意力层的输出经过线性层之后再使用sigmoid输出，因为一篇文档可能对应多个label，所以预测结果取输出大于某个阈值对应的多个标签。

多语言模型结构：

模型整体框架和上面类似，区别在于为了降低参数量和学习不同语言文本的结构共享了一部分参数信息：一、共享encoders部分的参数；二、共享attention部分的参数；三、共享encoders和attention的参数（both）。

此外，在对其中一种语言更新参数的过程中也要更新其他语言的参数，因此有如下损失函数的公式：

扫描二维码关注公众号，回复： 11962374 查看本文章

实验结果：

分别从full-resource scenario和low-resource scenario观察模型的F1值。

在full-resource场景下，对于以上三种共享参数的模型，可以发现共享attention层的参数会达到最好的效果，而share both反而会带来性能下降。此外，在其他语言上训练的模型在目标语言上也能测试不错的效果，体现了知识的迁移能力。

在low-resource场景下，多语言模型比单语言模型在少量数据的表现更好。并且，往往share both能取得最好的效果。

总结:

可以尝试在模型的不同位置使用注意力机制；
优化损失函数融合近似的主题信息；

猜你喜欢

转载自blog.csdn.net/Answer3664/article/details/103056970

文本分类《Multilingual Hierarchical attention networks for document classification》

中文短文本分类实例十二-HAN（Hierarchical Attention Networks for Document Classification）

Hierarchical Attention Networks for Document Classification 实现篇

【论文复现】Hierarchical Attention Networks for Document Classification

paper:Hierarchical Attention Networks for Document Classification

Hierarchical Attention Networks for Document Classification 模型理解篇

读论文：《Hierarchical Attention Network for Document Classification》—— 用于文本分类的层次注意力网络

Hierarchical Attention Network for Document Classification阅读笔记

Hierarchical Attention Networks for Document Classification- 多层注意力模型

Hierarchical Attention Networks for Document Classiﬁcation学习笔记

Message Passing Attention Networks for Document Understanding

AttPool: Towards Hierarchical Feature Representation in Graph Convolutional Networks via Attention

自然语言处理 | (29) 基于Hierarchical Attention Network的文本分类原理

Paper Reading -- 《Spectral-Spatial Attention Networks for Hyperspectral Image Classification》

CNN在文本分类的应用(内有代码实现) 论文Convolutional Neural Networks for Sentence Classification

中文短文本分类实例三-TextCNN（Convolutional Neural Networks for Sentence Classification）

【论文笔记】Document Embedding Enhanced Event Detection with Hierarchical and Supervised Attention

Multi-Granularity Hierarchical Attention Fusion Networks for RCQA读书笔记

HAN（Hierarchical Attention Network）

文本分类 Text Classification

NRE论文总结：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

【读】关系抽取—（1）Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

EMNLP2019 Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification

论文阅读-(HyperGAT)Be More with Less: Hypergraph Attention Networks for Inductive Text Classification

多标签分类：NeuralClassifier: An Open-source Neural Hierarchical Multi-label Text Classification Toolkit

BiLSTM-Attention文本分类

Attention Augmented Convolutional Networks

Residual attention network for image classification

Sequential Recommender System based on Hierarchical Attention Network

Convolutional Neural Networks for Sentence Classification

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)