TF-IDF 提取文本关键词

版权声明:本文为博主原创文章,转载请注明出处 https://blog.csdn.net/weixin_35757704/article/details/87968553

这篇博客主要是为了总结一下学习TF-IDF提取关键词的方法,同时整合一下代码。

目的:使用jieba分词器提取文本中的主题

import jieba #分词器
import jieba.analyse
import pickle


#这个方法去除停用词
def drop_stopwords(contents, stopwords):
    contents_clean = []
    for line in contents:
        line_clean = []
        for word in line:
            if word in stopwords:
                continue
            line_clean.append(word)
        contents_clean.extend(line_clean)
    return contents_clean


def tfidf_ana(content):
    stopwords = pickle.load(open('停用词目录/stopwords.pkl', 'rb')) #读取停用词文件
    content_list = drop_stopwords(content, stopwords) #这里使用停用词表删除无实际意义的词
    content_s = "".join(content_list).strip()
    title_keys = jieba.analyse.extract_tags(content_s, topK=6, withWeight=False)  # topK为期望得到的关键词个数
    title_keys = ','.join(title_keys)
    return title_keys


#开始测试
data = tfidf_ana("2019年,复杂的外部环境、全球经济放缓的较大可能性,叠加中国经济前期不利因素的累积效应,经济下行"
                 "压力进一步凸显,但是变中危和机同生共存,紧扣重要战略机遇新内涵,做好“六稳”工作,变压力为加快推动"
                 "经济高质量发展的动力。一是进一步发展好对外贸易关系,推进新全球化,以经贸关系为主线稳定外部环境。"
                 "稳妥应对外部经济环境变化,稳步发展“一带一路”贸易畅通,积极参与全球经济和贸易治理体系变革与发展,"
                 "坚持维护WTO的多边机制,维护中国在外贸中的合理权益和地位。二是稳妥处置地方政府债务风险和衍生金融风险。"
                 "为地方政府“开前门、堵后门”,辅以金融政策支持,为之构建合理的债务处置出口;合理划分中央和地方各级政府的财权、"
                 "事权,使地方政府的事权和财权相匹配,并有资源能够化解已有的债务问题,使之成为中国经济发展的助推器,而非风险源。"
                 "三是加快经济的深化改革和扩大开放。我国经济韧性强健,产业门类齐全,人员技能熟练,经济纵深宽广,抗风险能力强大,"
                 "加快经济的深化改革和扩大开放,深化国资国企、财税金融、土地、市场准入、社会管理等领域改革,推动体制机制创新,"
                 "不仅能进一步激发全社会的发展活力,为实现“六稳”目标打下坚实的基础,还能吸引中国经济对国际社会的吸引力,"
                 "形成互惠互利,提升中国应对全球经济衰退风险的能力,提高中国在推进新型全球化进程中的权益。")
#新闻来源:http://finance.eastmoney.com/a/201903011056589916.html
print(data)

猜你喜欢

转载自blog.csdn.net/weixin_35757704/article/details/87968553