sklearn使用TFIDF进行文本关键字提取 - 代码天地

sklearn使用TFIDF进行文本关键字提取

其他 2018-07-16 09:55:21 阅读次数: 0

# encoding=utf-8
from sklearn.feature_extraction.text import TfidfVectorizer, TfidfTransformer

corpus = [
     'This This is the first document.',
     'This This is the second second document.',
     'And the third one.',
     'Is this the first document?',
 ]
tfidf_model = TfidfVectorizer()
tfidf_matrix = tfidf_model.fit_transform(corpus)
word_dict=tfidf_model.get_feature_names()
print(word_dict)
print(tfidf_matrix)

实验结果：

"C:\Program Files\Anaconda3\python.exe" D:/pycharmprogram/csgwork/find_classification_keys/test_tfidfVectorizer.py
['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
  (0, 8)	0.6986804246371375
  (0, 3)	0.34934021231856877
  (0, 6)	0.2856085141790751
  (0, 2)	0.43150466158747897
  (0, 1)	0.34934021231856877
  (1, 8)	0.49256714844677196
  (1, 3)	0.24628357422338598
  (1, 6)	0.20135295972313796
  (1, 1)	0.24628357422338598
  (1, 5)	0.7717016211057586
  (2, 6)	0.2884767487500274
  (2, 0)	0.5528053199908667
  (2, 7)	0.5528053199908667
  (2, 4)	0.5528053199908667
  (3, 8)	0.4387767428592343
  (3, 3)	0.4387767428592343
  (3, 6)	0.35872873824808993
  (3, 2)	0.5419765697264572
  (3, 1)	0.4387767428592343

Process finished with exit code 0

猜你喜欢

转载自blog.csdn.net/baidu_15113429/article/details/80805181

sklearn使用TFIDF进行文本关键字提取

使用php进行文章关键字(标签)的提取

python数据挖掘实战笔记——文本挖掘（8）：用sklearn包进行关键字提取

python利用jieba(textRank、TFIDF)提取关键字

中文文本的关键字提取

文本关键字提取算法归纳

中文分词文本关键字提取

数据挖掘——关键字提取—sklearn的实际应用

tfidf进行关键词提取

sklearn文本转tfidf

数据挖掘——文本挖掘-关键字提取

文本挖掘----基于OCR的文档关键字提取

关键字提取笔记

php使用PHPAnalysis提取关键字中文分词

使用spark tf-idf 提取文章的关键字

this关键字使用

this关键字的使用

关键字的使用

C#，WPF中使用多文本显示数据，并对其数据进行关键字高亮等操作

用 Python 从单个文本中提取关键字的四种超棒的方法

使用async关键字进行TCP server的连接

使用关键字进行转发和重定向

【Kotlin】Kotlin 委托 ( 使用 by 关键字进行接口委托 )

使用 Set 对象对关键字进行去重操作

提取PDF关键字并写入Excel

Python解析、提取url关键字

5. 关键字提取算法

关键字提取算法TextRank算法

MYSQL的binlog日志提取关键字

shell 提取json文件关键字

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)