停用词+自定义词 - 代码天地

停用词+自定义词

其他 2018-11-02 18:54:59 阅读次数: 0

import jieba.posseg
#方式一：

#加载停用词表
stop = [line.strip() for line in open('stop.txt','r',encoding='utf-8').readlines() ]

#导入自定义词典:词语、词频（可省略）、词性（可省略）
jieba.load_userdict("userdict.txt")


s = "线程是程序执行时的最小单位，它是进程的一个执行流，\
        是CPU调度和分派的基本单位，一个进程可以由很多个线程组成，\
        线程间共享进程的所有资源，每个线程有自己的堆栈和局部变量。\
        线程由CPU独立调度执行，在多CPU环境下就允许多个线程同时运行。\
        同样多线程也可以实现并发操作，每个请求分配一个线程来处理。"


#分词并标注词性

segs = jieba.posseg.cut(s)#<generator object cut at 0x0000025DFFFCAFC0>
final = ''
for seg ,flag in segs:
    if seg not in stop:
       if flag !='m' and flag !='x':#m数词，x通常用于代表未知数、符号
            final +=' '+ seg

print(final)

#方式2

from jieba import analyse

analyse.set_stop_words('stop.txt')
tfidf = analyse.extract_tags
keywords = tfidf(data_str,topK=100,withWeight=True)#list
print('keywords',keywords)

猜你喜欢

转载自www.cnblogs.com/hapyygril/p/9897752.html

停用词+自定义词

pyhanlp 停用词与用户自定义词典

pyhanlp 停用词与用户自定义词典功能详解

【代码模版】加载自定义词典、去停用词分词、词性标注、词频统计

python （分词、自定义词表、停用词、词频统计与权值（tfidf）、词性标注与部分词性删除）

jieba分词三种分词模式、用户自定义词典、停用词词典的使用

自定义词云图片

IKAnalyzer 添加扩展词库和自定义词

Elasticsearch热词(新词/自定义词)更新配置

根据WordCloud的API参数来自定义词云

hanlp使用自定义词典抽取关键词

pyhanlp进行关键词提取，融入自定义词表

ibus添加自定义词组

jieba分词自定义词典

结巴使用自定义词典

pyhanlp自定义词典

庖丁解牛分词之自定义词库[自定义词典]

ElasticSearch-IK拓展自定义词库（1）：手动添加热词文件方式

ElasticSearch-IK拓展自定义词库（2）：HTTP请求动态热词内容方式

python--jieba分词、词性标注、关键词提取、添加自定义词典完整代码示例

配置solr+ikanalyzer+自定义词库

Ansj 通过List方式加入自定义词典

HanLP - 分词器 - 自定义词典

HanLP用户自定义词典源码分析详解

pyhanlp用户自定义词典添加

HanLP用户自定义词典源码分析

HanLP自定义词典注意事项

pyhanlp用户自定义词典添加实例说明

Elasticsearch——IK分词器自定义词库

基于ANSJ的自定义词典分词与歧义纠正

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)