【论文笔记】Bag of Tricks for Efficient Text Classification - 代码天地

【论文笔记】Bag of Tricks for Efficient Text Classification

其他 2018-05-31 09:23:53 阅读次数: 0

这篇文章写的是Facebook推出的FastText，能够快速在海量文本数据上进行分类任务和表示学习，可以用一个普通的多线程CPU在十分钟内训练百万级的语料，一分钟内将五十万文本分类到三十万个类别中。

最近几年深度学习在NLP任务上虽取得了显著地成就，但此类模型无论是训练还是测试阶段都因过长的时间消耗很难应用在更大的语料数据上。与此同时一些简单的线性模型在保持速度效率的同时也有不俗的表现，如Word2vec学习词级别的表示并进一步融合为语句表示。文章提出的方法就是在word2vec基础上加上bag of n-grams，下图是fasttext文本分类的模型，w是语句中的词语，词语的向量相加求平均值作为文本表示然后做一个线性分类，该模型类似word2vec的cbow模型，但模型不是要预测中心词，而是直接预测标签。模型以语句中的词语作为输入，输出语句属于各类别上的概率。

Hierarchical softmax

当类别数量过多时，线性模型的计算代价会非常大，为了解决这一问题，模型使用基于霍夫曼树的层级softmax，将计算复杂度从O(Kd)(K为类别数，d是隐层维度)下降为O(d log2(K))，叶子节点为最终的类别。层级softmax在测试阶段寻找最有可能的那一类是也很有优势，每一节点的概率都和该节点到根节点目录上每一节点的概率相关，若某一节点的深度为l+1，它的父节点为n1,n2...nl，那么它的概率为：

这意味着当前节点的概率总是比其父节点的概率低的，使用深度优先策略遍历树并寻找拥有最大概率的叶节点可以允许我们丢弃那些拥有较小概率的分支，从而节省很多时间。

N-gram features

词袋模型不考虑词序的问题，若将词序信息添加进去又会造成过高的计算代价。文章取而代之使用bag of n-gram来将词序信息引入：

比如我来到颐和园参观，相应的bigram特征为：

我来来到到颐颐和和园园参参观

相应的trigram特征为：

我来到来到颐到颐和颐和园和园参园参观

并使用哈希算法高效的存储n-gram信息。

猜你喜欢

转载自blog.csdn.net/weixin_39837402/article/details/80446588

【论文笔记】Bag of Tricks for Efficient Text Classification

fasttext论文 Bag of Tricks for Efficient Text Classification

论文阅读：《Bag of Tricks for Efficient Text Classification》

(36)[EACL] Bag of Tricks for Efficient Text Classification

Bag of Tricks for Efficient Text Classification（FastText）

Bag of Tricks for Efficient Text Classification论文阅读及实战

Fasttext (Bag of Tricks for Efficient Text Classification) 阅读笔记

【文本分类】Bag of Tricks for Efficient Text Classification

Bag of Tricks for Image Classification

【论文阅读】Bag of Tricks for Image Classification with Convolutional Neural Networks

「Computer Vision」Note on Bag of Tricks for Image Classification

Bag of Tricks for Image Classification with Convolutional Neural Networks

【论文笔记】文本分类(text classification)论文整理

【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification

Bag of Tricks for Unsupervised Text-to-Speech

图像分类算法优化技巧：Bag of Tricks for Image Classification

【cvpr2019】Bag of Tricks for Image Classification with Convolutional Neural Networks

【BoT】《Bag of Tricks for Image Classification with Convolutional Neural Networks》

深度学习论文: Bag of Tricks with Quantized Convolutional Neural Networks for image classification

[深度学习] Image Classification图像分类之Bag of Tricks for Image Classification with Convolutional Neural Net

【深度学习NLP论文笔记】《Deep Text Classification Can be Fooled》

【论文笔记】ULMFiT——Universal Language Model Fine-tuning for Text Classification

论文笔记：Research and Implementation of a Multi-label Learning Algorithm for Chinese Text Classification

Text Classification

[深度学习从入门到女装]Bag of Tricks for Image Classification with Convolutional Neural Networks

Text Level Graph Neural Network for Text Classification阅读笔记

【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification with Distributional Signatures - ICLR 2020)

【论文阅读】EAST: An Efficient and Accurate Scene Text Detector

《Pruning Filters for Efficient Convnets》论文笔记

【论文笔记】SafeHidden: An Efficient and Secure Information

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)