nlp词性标注

其他 2018-04-26 22:45:31 阅读次数: 3

nlp词性标注

与分词函数不同，jieba库和pyltp库词性标注函数上形式相差极大。

jieba的词性标注函数与分词函数相近，jieba.posseg.cut(sentence,HMM=True)函数有两个参数，sentence是一段文本。

pyltp的词性标注函数pyltp.Postagger.postag(words)有一个参数，words是分词模块的返回值，或者是Python原生的list类型。

nltk中的词性标注函数与pyltp的相似，也是输入list类型。nltk.pos_tag(tokens,tagset=None,lang='eng')中，tokens是list类型的词组；tagset是指定的标注集，有“universal”“wsj”和“brown”，不同的标注集标识词性的tag不同；lang是语言类型，目前支持较好的有“eng”和“rus”，对“zho”的支持还有待改进。

#coding:utf-8
import os
import nltk
import jieba
import jieba.posseg as pseg
from pyltp import Segmentor,Postagger

text='你是我的眼'

#jieba分词同时标注词性
segs=pseg.cut(text)
for word,pos in segs:
    print('%s %s'%(word,pos))

#pyltp以list为参数标注词性
data_dir=r"D:\ltp_data"
segmentor=Segmentor()
segmentor.load(os.path.join(data_dir,'cws.model'))
ptgger=Postagger()
ptgger.load(os.path.join(data_dir,'pos.model'))
segs2=segmentor.segment(text)
segs2=list(segs2)
poses2=ptgger.postag(segs2)
for i in range(len(segs2)):
    print('%s %s'%(segs2[i],poses2[i]))

segmentor.release()
ptgger.release()

segs3=nltk.pos_tag(segs2,lang='zho')
for word,pos in segs3:
    print('%s %s'%(word,pos))

运行结果如下：

你 r
是 v
我 r
的 uj
眼 n
你 r
是 v
我 r
的 u
眼 n
你 JJ
是 NNP
我 NNP
的 NNP
眼 NN

猜你喜欢

转载自www.cnblogs.com/sunnyeveryday/p/8955453.html

nlp词性标注

NLP --- 词性标注

【NLP】Python词性标注之词性解释

python之NLP词性标注

NLP(11): 词性标注实战

NLP学习（六）-词性标注问题

NLP笔记 --- 4.词性标注

NLP（五）词性标注和文法

【NLP】Python之jieba词性标注实例

[NLP]OpenNLP词性标注器的使用

NLP实战-词性标注-维特比算法

python.nlp随笔（五）词性标注详解

02-NLP-05-使用HMM进行词性标注

【NLP】【四】jieba源码分析之词性标注

中文 NLP（6）-- stanford 训练词性标注模型

中文 NLP（5） -- 宾州树《汉语词性标注规范》

NLP基础之分词、向量化、词性标注

NLP基础-词性标注应用去除停用词

【NLP】Python之词性标注界面化实现

【NLP】一文了解词性标注CRF模型

词性标注

【Python & NLP】关于语料库标注——词性标注、分词标注、类别标签等-例如brat

词性标注，标注集

【NLP】Python3.6.5中使用 Stanford NLP工具包进行词性标注

【NLP】自然语言处理_NLP入门——分词和词性标注

【python 走进NLP】使用Jieba进行中文词性标注

NLP基础笔记2——词性标注与命名实体识别，关键词提取技术

NLP-分词、词性标注及命名实体识别（一）：概念及jieba使用解析

NLP学习笔记 01 分词、词性标注和关键词提取

【NLP】暑假课作业3 - 词性标注（简单词频概率统计）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)