[Python工具]FoolNLTK 中文处理工具包使用教程

其他 2018-11-26 10:21:11 阅读次数: 0

FoolNLTK

中文处理工具包

近日 GitHub 用户 wu.zheng 开源了一个使用双向 LSTM 构建的中文处理工具包，该工具不仅可以实现分词、词性标注和命名实体识别，同时还能使用用户自定义字典加强分词的效果。

特点

可能不是最快的开源中文分词，但很可能是最准的开源中文分词
基于BiLSTM模型训练而成
包含分词，词性标注，实体识别,　都有比较高的准确率
用户自定义词典
可训练自己的模型
批量处理

定制自己的模型

get clone https://github.com/rockyzhengwu/FoolNLTK.git
cd FoolNLTK/train

详细训练步骤可参考文档

仅在linux Python3　环境测试通过

Install

pip install foolnltk

使用说明

分词

import fool

text = "一个傻子在北京"
print(fool.cut(text))
# ['一个', '傻子', '在', '北京']

命令行分词, 可指定-b参数，每次切割的行数能加快分词速度

python -m fool [filename]

用户自定义词典

词典格式格式如下，词的权重越高，词的长度越长就越越可能出现,　权重值请大于1

难受香菇 10
什么鬼 10
分词工具 10
北京 10
北京天安门 10

加载词典

import fool
fool.load_userdict(path)
text = ["我在北京天安门看你难受香菇", "我在北京晒太阳你在非洲看雪"]
print(fool.cut(text))
#[['我', '在', '北京', '天安门', '看', '你', '难受', '香菇'],
# ['我', '在', '北京', '晒太阳', '你', '在', '非洲', '看', '雪']]

删除词典

fool.delete_userdict();

开源地址：
https://github.com/rockyzhengwu/FoolNLTK

猜你喜欢

转载自blog.csdn.net/xiaosongshine/article/details/84444361

[Python工具]FoolNLTK 中文处理工具包使用教程

FoolNLTK—简单好用的中文NLP工具包

xml处理工具包使用

中文自然语言处理工具包

用foolnltk工具包实现中文分词和命名实体识别

配置Json处理工具包

使用Stanford CoreNLP工具包处理中文

(Python) Python语音处理工具包AudioSegment的基本使用

python的foolnltk库实现中文NER

图像处理工具包ImagXpress插入多页教程指南

commons-collections-3.2.1数组处理工具包

NetworkX 图网络处理工具包

NLP 工具包大调查自然语言处理工具包合集

[Nuget]使用Nuget管理工具包

使用Java实现动态代理工具包

使用Python工具包Openpyxl进行Excel处理

中文分词工具简介与安装教程（jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac）

python数据处理工具包——pandas简介（如何构建数据结构篇）

pysptk, 语音信号处理工具包( SPTK )的python 封装器

【Python+中文自然语言处理】（二）中文分词工具包：jieba

python工具包

谷歌Java开发工具包Guava之String字符串处理工具

deeplearning 常用python工具包使用

常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）

图像处理工具包ImagXpress：如何处理图像合并图像

python3安装pyhanlp (中文自然语言处理的工具包) 超详细。

中文处理FoolNLTK

percona-toolkit工具包的使用教程

svn工具包+安装教程+使用ip访问

Java使用ganymed工具包执行LINUX命令教程

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)