jieba源碼研讀筆記（十五） - 關鍵詞提取函數入口

其他 2020-01-24 10:31:31 阅读次数: 0

jieba源碼研讀筆記（十五） - 關鍵詞提取函數入口

前言
import其它模組
定義全局變數及函數

前言

jieba的關鍵詞提取功能主要由jieba/analyse這個模組實現。
以下是jieba/analyse模組的目錄結構：

├─jieba
│  ├─analyse
│  │  │  analyzer.py
│  │  │  idf.txt
│  │  │  textrank.py
│  │  │  tfidf.py
│  │  │  __init__.py

jieba支援兩種關鍵詞提取的算法，包括TF-IDF及TextRank兩種。
在jieba/analyse/__init__.py中，會調用TFIDF及TextRank這兩個檔案，並利用它們定義一些全局變數及函數。

import其它模組

from __future__ import absolute_import
from .tfidf import TFIDF
from .textrank import TextRank
try:
    from .analyzer import ChineseAnalyzer
except ImportError:
    pass

定義全局變數及函數

default_tfidf = TFIDF()
default_textrank = TextRank()

extract_tags = tfidf = default_tfidf.extract_tags
set_idf_path = default_tfidf.set_idf_path
textrank = default_textrank.extract_tags

def set_stop_words(stop_words_path):
    default_tfidf.set_stop_words(stop_words_path)
    default_textrank.set_stop_words(stop_words_path)

keineahnung2345

发布了90 篇原创文章 · 获赞 9 · 访问量 5万+

私信关注

猜你喜欢

转载自blog.csdn.net/keineahnung2345/article/details/86774089

jieba源碼研讀筆記（十五） - 關鍵詞提取函數入口

jieba源碼研讀筆記（十七） - 關鍵詞提取之TF-IDF

jieba源碼研讀筆記（十四） - 詞性標注函數入口

jieba源碼研讀筆記（八） - 分詞函數入口cut及tokenizer函數

jieba源碼研讀筆記（十八） - 關鍵詞提取之TF-IDF使用示例

jieba源碼研讀筆記（十六） - 關鍵詞提取之tfidf.py檔初探

jieba源碼研讀筆記（五） - 分詞之全模式

jieba源碼研讀筆記（三） - 分詞之Tokenizer初探

jieba源碼研讀筆記（一） - 分詞功能初探

jieba源碼研讀筆記（十一） - 詞性標注之POSTokenizer初探

jieba源碼研讀筆記（十） - 詞性標注功能初探

jieba源碼研讀筆記（九） - 分詞之搜索引擎模式

jieba源碼研讀筆記（六） - 分詞之精確模式（使用動態規劃）

jieba源碼研讀筆記（二） - 分詞之Python2/3相容

jieba源碼研讀筆記（七） - 分詞之精確模式（使用HMM維特比算法發現新詞）

jieba源碼研讀筆記（十三） - 詞性標注（使用HMM維特比算法發現新詞）

jieba源碼研讀筆記（十二） - 詞性標注（使用DAG有向無環圖+動態規劃）

jieba源碼研讀筆記（四） - 正則表達式

C#關鍵詞

內置函數操作筆記-文件操作

內置函數操作筆記-集合

內置函數操作筆記-字典

內置函數操作筆記-元组

內置函數操作筆記-列表

讀書筆記

關於Excel函數

TensorRT/samples/common/argsParser.h源碼研讀

Beta 函數和 Gamma 函數的關係

TensorRT/samples/common/logger.h,logger.cpp,logging.h源碼研讀

[VIM]VIM用户自定义關鍵詞语法高亮

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)