高效的文本分类

其他 2020-01-16 11:50:46 阅读次数: 0

相关介绍

文本分类任务是自然语言处理中重要的任务之一，近来，神经网络的使用变得更为普遍，神经网络在文本分类任务中表现更好，但是在训练和测试时间比较慢，限制了在大型语料库中的使用。
与此同时，线性分类器在文本分类器中被认为是一种很好的baseline，尽管他们很简单，但当正确的特征被使用时，经常能够得到很好的表现[1.wang and Manning,2012]。线性模型也适用于非常大的语料库。因此，当这些baseline的方法应用到大语料库中时，提出了一个基于rank constraint的线性模型，该线性模型有着简答的损失函数，能够在十亿大小的语料库中，十分钟内训练完成。并且能够得到很好的表现。该模型为fastText。

模型结构

通常在文本分类中使用BOW训练向量，并用来表示sequence，并使用SVM或逻辑回归等分类器进行分类，然而线性分类器在特征和类别之间并不分享参数，这可能限制了在大型语料库中当某些类别具有很少的实例时的泛化能力。通常的解决方法是将线性分类器分解成低阶矩阵，或者使用多重的神经网络。
当采用rank constraint时，具体如下图所示：
这里写图片描述

该模型与cbow模型比较类似，只是预测中间的词改为预测目标词，具体目标函数如下所示：
这里写图片描述

其中A是lookup table。B为权值矩阵，f为softmax函数，另外，模型中使用a bag of n-gram作为额外的特征，并使用hashing trick维护一个快速并内存有效的映射。

实验验证

情绪分析

这里写图片描述

这里写图片描述

这里写图片描述

Tag Predict

这里写图片描述

参考论文：
Bag of Tricks for Efficient Text classification

1.Feature hashing for large scale multitask learning.

一夜了

发布了98 篇原创文章 · 获赞 337 · 访问量 48万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/yiyele/article/details/81006273

高效的文本分类

文本分类——脸书的高效杰出工具fastText

文本分类

文本分类步骤

笔记-文本分类

文本分类入门

Rocchio文本分类

5.1、文本分类

大话文本分类

文本分类-TextCNN

CNN文本分类

flair文本分类

fasttext文本分类

文本分类模型

xgboost文本分类

文本分类：survey

自制文本分类

文本分类总结

文本分类实战

TextCNN(文本分类)

SVM文本分类

文本分类问题

文本分类笔记

文本分类概述

TextCNN文本分类

python的文本分类

NLP文本分类

文本分类任务

fastText中的子词嵌入和高效文本分类：简单高效性能好

《一揽子高效文本分类技巧》论文阅读

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)