HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语。所以,HanLP词性标注集兼容《ICTPOS3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。
HanLP词性标注集 | |
---|---|
a 形容词 |
|
ad 副形词 |
|
ag 形容词性语素 |
|
al 形容词性惯用语 |
|
an 名形词 |
|
b 区别词 |
|
begin 仅用于始##始 |
|
bg 区别语素 |
|
bl 区别词性惯用语 |
|
c 连词 |
|
cc 并列连词 |
|
d 副词 |
|
dg 辄,俱,复之类的副词 |
|
dl 连语 |
|
e 叹词 |
|
end 仅用于终##终 |
|
f 方位词 |
|
g 学术词汇 |
|
gb 生物相关词汇 |
|
gbc 生物类别 |
|
gc 化学相关词汇 |
|
gg 地理地质相关词汇 |
|
gi 计算机相关词汇 |
|
gm 数学相关词汇 |
|
gp 物理相关词汇 |
|
h 前缀 |
|
i 成语 |
|
j 简称略语 |
|
k 后缀 |
|
l 习用语 |
|
m 数词 |
|
mg 数语素 |
|
Mg 甲乙丙丁之类的数词 |
|
mq 数量词 |
|
n 名词 |
|
nb 生物名 |
|
nba 动物名 |
|
nbc 动物纲目 |
|
nbp 植物名 |
|
nf 食品,比如“薯片” |
|
ng 名词性语素 |
|
nh 医药疾病等健康相关名词 |
|
nhd 疾病 |
|
nhm 药品 |
|
ni 机构相关(不是独立机构名) |
|
nic 下属机构 |
|
nis 机构后缀 |
|
nit 教育相关机构 |
|
nl 名词性惯用语 |
|
nm 物品名 |
|
nmc 化学品名 |
|
nn 工作相关名词 |
|
nnd 职业 |
|
nnt 职务职称 |
|
nr 人名 |
|
nr1 复姓 |
|
nr2 蒙古姓名 |
|
nrf 音译人名 |
|
nrj 日语人名 |
|
ns 地名 |
|
nsf 音译地名 |
|
nt 机构团体名 |
|
ntc 公司名 |
|
ntcb 银行 |
|
ntcf 工厂 |
|
ntch 酒店宾馆 |
|
nth 医院 |
|
nto 政府机构 |
|
nts 中小学 |
|
ntu 大学 |
|
nx 字母专名 |
|
nz 其他专名 |
|
o 拟声词 |
|
p 介词 |
|
pba 介词“把” |
|
pbei 介词“被” |
|
q 量词 |
|
qg 量词语素 |
|
qt 时量词 |
|
qv 动量词 |
|
r 代词 |
|
rg 代词性语素 |
|
Rg 古汉语代词性语素 |
|
rr 人称代词 |
|
ry 疑问代词 |
|
rys 处所疑问代词 |
|
ryt 时间疑问代词 |
|
ryv 谓词性疑问代词 |
|
rz 指示代词 |
|
rzs 处所指示代词 |
|
rzt 时间指示代词 |
|
rzv 谓词性指示代词 |
|
s 处所词 |
|
t 时间词 |
|
tg 时间词性语素 |
|
u 助词 |
|
ud 助词 |
|
ude1 的 底 |
|
ude2 地 |
|
ude3 得 |
|
udeng 等 等等 云云 |
|
udh 的话 |
|
ug 过 |
|
uguo 过 |
|
uj 助词 |
|
ul 连词 |
|
ule 了 喽 |
|
ulian 连 (“连小学生都会”) |
|
uls 来讲 来说 而言 说来 |
|
usuo 所 |
|
uv 连词 |
|
uyy 一样 一般 似的 般 |
|
uz 着 |
|
uzhe 着 |
|
uzhi 之 |
|
v 动词 |
|
vd 副动词 |
|
vf 趋向动词 |
|
vg 动词性语素 |
|
vi 不及物动词(内动词) |
|
vl 动词性惯用语 |
|
vn 名动词 |
|
vshi 动词“是” |
|
vx 形式动词 |
|
vyou 动词“有” |
|
w 标点符号 |
|
wb 百分号千分号,全角:% ‰ 半角:% |
|
wd 逗号,全角:, 半角:, |
|
wf 分号,全角:; 半角: ; |
|
wh 单位符号,全角:¥ $ £ ° ℃ 半角:$ |
|
wj 句号,全角:。 |
|
wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { > |
|
wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { < |
|
wm 冒号,全角:: 半角: : |
|
wn 顿号,全角:、 |
|
wp 破折号,全角:—— -- ——- 半角:— —- |
|
ws 省略号,全角:…… … |
|
wt 叹号,全角:! |
|
ww 问号,全角:? |
|
wyy 右引号,全角:” ’ 』 |
|
wyz 左引号,全角:“ ‘ 『 |
|
x 字符串 |
|
xu 网址URL |
|
xx 非语素字 |
|
y 语气词(delete yg) |
|
yg 语气语素 |
|
z 状态词 |
|
zg 状态词 |