文本分词、生成tfidf值并降序排序 - 代码天地

文本分词、生成tfidf值并降序排序

其他 2020-08-11 18:19:25 阅读次数: 0

# coding:utf-8  
import os  
import sys  
import jieba  
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer
sys.path.append("../")
f = open('../your.txt', 'r')
data=f.readlines()
f2=open('../experiments/tfidf_your.txt', 'w')
if __name__ == "__main__":  
    all_txt_cut=""
    for text in data:
        seq_list=jieba.cut(text,cut_all=False)#精确模式
        for word in list(seq_list):
            all_txt_cut+=word+" "
    all_txt_cut=[all_txt_cut]
    vectorizer=CountVectorizer()#该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频  
    transformer=TfidfTransformer()#该类会统计每个词语的tf-idf权值  
    tfidf=transformer.fit_transform(vectorizer.fit_transform(all_txt_cut))#第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵  
    word=vectorizer.get_feature_names()#获取词袋模型中的所有词语  
    weight=tfidf.toarray()#将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重 
    words_tfidf={} 
    for i in range(len(word)):
        words_tfidf[word[i]]=weight[0][i]
    words_tfidf_order=sorted(words_tfidf.items(),key=lambda x:x[1],reverse=True) #字典排序，生成元组
    for k in range(len(words_tfidf_order)):
        s=str(words_tfidf_order[k][0])+" "+str(words_tfidf_order[k][1])+"\n"
        f2.write(s)

猜你喜欢

转载自blog.csdn.net/qq_36663518/article/details/107630891

文本分词、生成tfidf值并降序排序

文本分词

文本分类实战---tfidf+embedding---1

THUCNews新闻文本分类-tfidf+sklearn

THUCNews新闻文本分类-tfidf+sklearn2

文本分类-统计特征(含tfidf) +lgb

snownlp文本分词、情感分析、文本相似度与摘要生成

文本tfidf

使用spark 对文本分词统计

java 中文文本分词

斗破苍穹文本分词

文本分析3-jieba分词

中文文本分词 API 接口

NLP之文本分词综述

MapReduce读取文本，实现降序排序

python 文本分词+文本相似度分析

基于TFIDF实现文本分类，并比较词集模型与词袋模型的分类效果

PHP调用scws分词计算tfidf 比较文本内容相似度

python+gensim︱jieba分词、词袋doc2bow、TFIDF文本挖掘

Python3 分词去掉文本标点(自主定义)并构建tfidf词向量

数据处理之文本分词、MMSEG分词工具、斯坦福NLTK分词工具

Python 中文文本分词（包含标点的移除）

[python] jieba 模块 -- 给中文文本分词

【python】英文文本分词词频统计

NLP 文本分词 java类方法，及opennlp 示例

NLP 文本分词停用词查看网址

自然语言处理：文本分词的原理

机器学习之文本分析（jieba分词，词云图）

文本分词与循环神经网络笔记

信息熵中的熵权法与文本分词的优化

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)