TF-IDF提取关键词 - 代码天地

TF-IDF提取关键词

其他 2020-03-13 21:17:28 阅读次数: 0

　　今天完成了提取字符串关键词的这一部分，代码如下：

 1 # -*- coding: gbk -*-
 2 import jieba.analyse
 3 import pymysql
 4 
 5 
 6 # 打开连接
 7 def open_conn(dbname):
 8     db = pymysql.connect(
 9         host="localhost",
10         port=3306,
11         user="root",
12         passwd="******",
13         db=dbname,
14         charset="utf8")
15     return db
16 
17 # 遍历查询
18 def query(db):
19     cursor = db.cursor()
20     sql = "select ID,key_words,result_summary from summary_table"
21     cursor.execute(sql)
22     for each in cursor.fetchall():
23         ID = each[0]
24         key_words = each[1]
25         result_summary = each[2]
26         if key_words is None:                  
27             if len(result_summary) > 10:
28                 new_key_word = get_keyword_by_TFIDF(result_summary)
29                 update(db,ID,new_key_word)
30                 print(ID,new_key_word)
31 
32 # 修改数据  参数（db,ID,关键词）
33 def update(db,ID,keyword):
34     cursor = db.cursor()
35     sql = " update summary_table set key_words = %s where ID = %s"
36     cursor.execute(sql,(keyword,ID))
37     db.commit()
38 
39 ##词性：n:名词,v:动词，ns:地名，vn:名动词，nt:机构团体
40 # TF-IDF算法提取关键词
41 def get_keyword_by_TFIDF(result_summary):
42     keywords = " ".join(jieba.analyse.extract_tags(result_summary, topK=5, withWeight=False, allowPOS=(["ns", "n", "vn", "v","nt"])))
43     return keywords
44 #TextRank算法
45 def get_keyword_by_TextRank(result_summary):
46     keywords = " ".join(jieba.analyse.textrank(result_summary, topK=5, withWeight=False, allowPOS=("ns", "n", "vn", "v","nt")))
47     return keywords
48 
49 
50 if __name__ == '__main__':
51     query(open_conn("datax"))

View Code

猜你喜欢

转载自www.cnblogs.com/liyuchao/p/12488974.html

关键词提取:TF-IDF

TF-IDF提取关键词

关键词提取(tf-idf与textRank)

Python TF-IDF 算法提取文本关键词

python 基于TF-IDF算法的关键词提取

TF-IDF关键词提取方法的学习

TF-IDF关键词提取步骤

TF-IDF 提取文本关键词

提取关键词--tf-idf算法讲解

TF-IDF算法之关键词提取

TF-IDF关键词提取算法

TF-IDF方法提取文本关键词

TF-IDF关键词抽取

关键词提取/关键字提取之TF-IDF算法

TF-IDF与余弦相似性的应用（一）：自动提取关键词

TF-IDF与余弦相似性的应用（一）：自动提取关键词（转）

自然语言处理——TF-IDF算法提取关键词

自然语言处理--TF-IDF（关键词提取）

spark TF-IDF特征提取生成文章关键词

python实现tf-idf和textrank提取中文关键词

关键词提取方法学习总结（TF-IDF、Topic-model、RAKE）

【自然语言处理】TF-IDF算法提取关键词

自然语言处理之关键词提取TF-IDF

基于TF-IDF算法的短标题关键词提取

机器学习策略与工程--基于TF-IDF的关键词提取

jieba之TF-IDF和TextRank提取关键词

Python利用TF-IDF实现文章的关键词提取

自然语言处理：关键词提取（TF-IDF、Textrank）

基于TF-IDF算法抽取文章关键词

4.1 TF-IDF抽取文本关键词

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)