自然语言处理--CountVectorizer入门 - 代码天地

自然语言处理--CountVectorizer入门

其他 2021-03-25 17:42:14 阅读次数: 0

CountVectorizer是属于常见的特征数值计算类，是一个文本特征提取方法。对于每一个训练文本，它只考虑每种词汇在该训练文本中出现的频率。
CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。

from sklearn.feature_extraction.text import CountVectorizer

texts=["dog cat fish","dog cat cat","fish bird", 'bird']  # “dog cat fish” 为输入列表元素,即代表一个文章的字符串

cv = CountVectorizer()  # 创建词袋数据结构
cv_fit=cv.fit_transform(texts)
#上述代码等价于下面两行
#cv.fit(texts)
#cv_fit=cv.transform(texts)

print(cv.get_feature_names())  #['bird', 'cat', 'dog', 'fish'] 列表形式呈现文章生成的词典

print(cv.vocabulary_)  # {‘dog’:2,'cat':1,'fish':3,'bird':0} 字典形式呈现，key：词，value:词频

print(cv_fit)
# （0,3） 1   第0个列表元素，**词典中索引为3的元素**， 词频

print(cv_fit.toarray())  #.toarray() 是将结果转化为稀疏矩阵矩阵的表示方式；
# [[0 1 1 1]
# [0 2 1 0]
# [1 0 0 1]
# [1 0 0 0]]

print(cv_fit.toarray().sum(axis=0))  #每个词在所有文档中的词频
# [2 3 2 2]

原文：
https://blog.csdn.net/weixin_38278334/article/details/82320307

猜你喜欢

转载自blog.csdn.net/fgg1234567890/article/details/114861447

自然语言处理--CountVectorizer入门

自然语言处理如何入门

自然语言处理入门

自然语言处理怎么最快入门

自然语言处理(NLP)入门

自然语言处理NLP快速入门

自然语言处理怎么最快入门？

自然语言处理hanlp的入门基础

自然语言处理NLTK之入门

如何最快入门自然语言处理

自然语言处理（NLP）入门（二）

自然语言处理（NLP）入门（一）

自然语言处理--Gensim入门

自然语言处理

自然语言处理①

自然语言处理从入门到应用——自然语言处理的语言模型（Language Model，LM）

《自然语言处理实战入门》---- 第1课：自然语言处理简介

《自然语言处理实战入门》第1课：自然语言处理（NLP）技术简介

轻松入门自然语言处理系列 01 自然语言处理概述

自然语言处理从入门到应用——自然语言处理的应用任务

自然语言处理1——探索自然语言处理的基础 - Python入门篇

【自然语言处理】自然语言处理 --- NLP入门指南

自然语言处理：大语言模型入门介绍

中文自然语言处理入门实战

自然语言处理（NLP）-NLTK入门学习（一）

自然语言处理（NLP）-NLTK入门学习（二）

自然语言处理（NLP）-NLTK入门学习（si）

自然语言处理（NLP）-NLTK入门学习（三）

Python 自然语言处理入门—关于jieba库的使用

[转载]自然语言处理如何入门？ ——周明博士

今日推荐

周排行

【转】mongodb中删除数组内嵌对象文档

php数字金额转换成中文大写显示

枫神之路--Java 的继承机制

四、Spring中使用@Conditional按照条件注册Bean

tomcat中直接使用第3放jar包

进程的创建fork vs vfork

结构体和组合体

“无任何网络提供程序接受指定的网络路径”的解决办法

webpack配置vue项目引入和部分引入

Oracle在不同windows系统中的迁移

每日归档

更多

2024-06-14(0)

2024-06-13(0)

2024-06-12(0)

2024-06-11(0)

2024-06-10(0)

2024-06-09(0)

2024-06-08(0)

2024-06-07(0)

2024-06-06(0)

2024-06-05(0)