文本分类问题相关原理知识 - 代码天地

文本分类问题相关原理知识

其他 2019-07-22 11:41:32 阅读次数: 0

1 词袋模型

from sklearn import feature_extraction

f = feature_extraction.text.CountVectorizer()

CountVectorizer将文本中的词转化为词频矩阵，数值为0/1，是关键字则为1。

from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'This is the first document.',
    'This is the second second document.',
    'And the third one.',
    'Is this the first document?',
]

'''CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵
get_feature_names()可看到所有文本的关键字
vocabulary_可看到所有文本的关键字和其位置
toarray()可看到词频矩阵的结果'''
vectorizer = CountVectorizer()
count = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names())  
print(vectorizer.vocabulary_)
print(count.toarray())
print(count.toarray().shape)
#词频矩阵：向量长度（横向每一行）：所有关键字的数量（设为m）  数值：0/1数值==出现、未出现  纵向长度：文档数量
#需要注意关键字又有自己的位置，所以文档中的某一句有m长，该句中某个位置上是关键字的会标注为1.

['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
{'this': 8, 'is': 3, 'the': 6, 'first': 2, 'document': 1, 'second': 5, 'and': 0, 'third': 7, 'one': 4}
[[0 1 1 1 0 0 1 0 1]
 [0 1 0 1 0 2 1 0 1]
 [1 0 0 0 1 0 1 1 0]
 [0 1 1 1 0 0 1 0 1]]
(4, 9)

猜你喜欢

转载自www.cnblogs.com/DHuifang004/p/11224763.html

文本分类问题相关原理知识

文本分类问题

文本分类相关论文

fasttext文本分类原理

文本分类问题汇总

NLP文本分类问题

关于文本分类的问题

(九)文本分类问题的分类

CNN用于文本分类的原理细节

fastText原理和文本分类实战

文本分类之textCNN的原理

文本分类方法TextCNN原理介绍

(一)文本分类问题的定义zz

文本分类流程及可能遇到的问题

文本建模、文本分类相关开源项目推荐

文本分类

文本分类步骤

笔记-文本分类

文本分类入门

Rocchio文本分类

5.1、文本分类

大话文本分类

CNN文本分类

文本分类-TextCNN

flair文本分类

fasttext文本分类

文本分类模型

xgboost文本分类

文本分类：survey

自制文本分类

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)