准确率创新高，北大开源中文分词工具包 pkuseg - 代码天地

准确率创新高，北大开源中文分词工具包 pkuseg

业界资讯 2019-01-10 08:10:40 阅读次数: 0

北京大学近日开源了一个全新的中文分词工具包 pkuseg ，相比于现有的同类开源工具，pkuseg 大幅提高了分词的准确率。

pkuseg 由北大语言计算与机器学习研究组研制推出，具备如下特性：

高分词准确率。相比于其他的分词工具包，pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果，pkuseg 分别在示例数据集（ MSRA 和 CTB8 ）上降低了 79.33% 和 63.67% 的分词错误率。
多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点，用户可以自由地选择不同的模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。

性能对比

在 Linux 环境下，各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下：

预训练模型

分词模式下，用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型，根据具体需要，用户可以选择不同的预训练模型。以下是对预训练模型的说明：

MSRA : 在 MSRA（新闻语料）上训练的模型。新版本代码采用的是此模型。下载地址

CTB8 : 在 CTB8（新闻文本及网络文本的混合型语料）上训练的模型。下载地址

WEIBO : 在微博（网络文本语料）上训练的模型。下载地址

更多详情可查阅项目仓库。

猜你喜欢

转载自www.oschina.net/news/103470/pkuseg-open-sourced

准确率创新高，北大开源中文分词工具包 pkuseg

北大开源全新中文分词工具包：准确率远超THULAC、结巴分词

中文分词模型-pkuseg和jieba对比

NLP系列（一）pkuseg-python：一个高准确度的中文分词工具包

【python 走进NLP】pkuseg一个领域细分的中文分词工具包

pkuseg：一个多领域中文分词工具包

北大开源分词工具包: 准确率远超THULAC、jieba 分词

pkuseg 和 jieba 分词对比测试，结果出乎意料...

NLP（一）使用jieba、pyltp、pkuseg、nltk分词

自然语言处理基础技术工具篇之PKUSeg

常用中文分词工具分词&词性标注简单应用（jieba、pyhanlp、pkuseg、foolnltk、thulac、snownlp、nlpir）

北京大学开源分词工具pkuseg 初试与使用感受

五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

中文分词工具简介与安装教程（jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac）

基于开源中文分词工具pkuseg-python，我用张小龙的3万字演讲做了测试

开源中文分词工具pkuseg-python，我用张小龙的3万字演讲做了测试

北大开源了Python中文分词工具包，准确度远超Jieba

【python】结巴分词、PKUSeg分词之间的区别问题及词性标注

【python】结巴分词、PKUSeg分词之间的区别问题及词性标注

实践：jieba分词和pkuseg分词、去除停用词、加载预训练词向量

基于中文分词工具pkuseg-python，我用张小龙的3万字演讲做了测试

Google开源新AI模型，语音区分准确率92%创新高 | 论文+GitHub

安装pkuseg库时报错No module named ‘pkuseg.feature_extractor‘

谷歌把数据增强也自动化了，ImageNet数据集准确率创新高！

关于pkuseg-python的基本介绍和使用

网易易盾实验室多模态视角信息融合技术达到国际领先水平准确率等关键指标创新高

手把手教你写情感分析工具包——兼顾效率和准确率

NLPIR语义分析系统不断提高中文分词准确率

一套准确率高且效率高的分词、词性标注工具-thulac

林奇创新高

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)