【宾州中文树库CTB】分词手册导读《The Segmentation Guidelines for the Penn Chinese TreeBank(3.0)》

说明:宾州中文树库分词手册下载地址https://download.csdn.net/download/tong_xin2010/10576849

Chap1:Introduction

本文是Penn Chinese Treebank Project中的一篇文档。这个文档目标是对100-thousand的普通话材料进行句法结构分析(syntactic bracketing)。标注(annotation)的过程包括2个阶段:第一阶段是分词(word segmentation)+词性标注(Part-of-Speech tagging, POS);第二阶段是句法结构分析。以上2阶段的工作各自需要至少2轮处理:一个标注人先做一轮标注,然后另一个标注人检查标注结果。

分词手册(segmentation guidelines),词性标注手册(POS guidelines)和句法分析手册(bracketing guidelines)在project进行的过程中有过几次修改。

1.1 word的概念

尽管在其他语言中也存在这样的困难:定义什么是一个word,但在中文中,以下几个特殊性使得定义“word”的概念更加困难:列了4点中文的特殊之处。

本文从语言和工程两个角度综合考虑,定义一个word为“任何在语法上能被插入到X0位置的东西,既可能是单个单词,也可能是复合词”

1.2 test of wordhood

那么,如何判断一串汉字是一个word还是多个语素呢?以下列出了8条从不同研究者提出的分词规则:(见原文)。

这些规则都有用,但是又都不足以单独判断所有的复杂情况,所以本guideline的分词规则是上述多条规则的组合,但是不包括productivity test和frequency test。

1.3 Compatibility with other guidelines

我们研究了其他一些研究者的guidelines(见原文参考文献),并努力利用其中提到的准则。

因为宾州中文树库的输出是句法分析(syntactic bracketing),因此在分词时不会很严格,而是有一定灵活性。例如:“走上来”用一个参考guideline的原则应该分为2个部分,用另一个参考guideline会认为是一个词。在宾州中文树库中,将其分为2个部分,但构成一个复合词“(走/v 上来/V)/V”,这样的分法与以上2个参考的分词guideline都不冲突。各参考guideline和本guideline的差异在Appendix A中查阅。

我们的目标是:在最终的句法分析输出中,词的边界(the highest level X0 in the parsing tree)尽可能准确,内部的structure能作为连接到已存在的其他guideline的桥梁。

1.4 Treatment for unclear cases

对于2种不清晰的分词情况的说明

1.5 Organization of this guidelines

Chap2 Specifications

2.1【Common Noun——NN】:列举多种情况下一个汉字串是否定为1个word

详情见手册。这里举一例。

2.1.2 CD+N

“CD”和“N”的含义在 APPENDIX B 中查阅,“CD”为量词,“N”为名词

判断准则:如果在CD+N的结构中,可以插入一个单位在CD和N之间,并且意思不变,则判定为2个词:CD+N,例如:

如果在CD和N之间插入一个单位后意思改变了,则将CD+N判定为一个NN,例如:

2.2【Proper Noun——NR,专有名词】

2.3【Temporal Noun——NT,时间名词】

2.4【Localizer——LC,定位词】如“内”,“左右”

2.5【Pronoun——PN,代词】

2.6【Determiner——DT,限定词】如“这”,“全体”

2.7【Cardinal Number——CD,量词】

2.8【Ordinal Number——OD,次序词】如“第三十一”

2.9【Measure word——M,单位词】如“杯”

2.10【Verb:VA,VC,VE,VV,动词】

2.11【Adverb:AD,副词】如“近”,“极大”

2.12【Preposition:P,介词】如“随着”

2.13【Subordinating conjunctions:CS,从属连词】

2.14【Conjuctions:CC,连词】如“和”

2.15【Particle:DEC,DEG,DEV,DER,AS,SP,ETC,MSP,小品词】如“的话”

2.16【Interjections:IJ,感叹词】如“哈”

2.17【onomatopoeia:ON,拟声词】如“哗啦啦”

2.18【Other Noun-modifier:JJ】如“发稿/JJ 时间/NN”

2.19【Punctuation:PU,标点符号】

2.20【Foreign word:FW,外国词语】如“OK”

2.21【Others】包括idioms(习语),telescopic string(没明白什么意思),short form(缩写)

Chap3 Collocation with some morphemes:词语和某些语素的组合

3.1【轻声“着”】如“随着”

3.2【一声“之”】如“之外”,“之中”

3.3【四声“不”】如“不足”

3.4【四声“是”】如“特别是”

3.5【一声“些”】如“这些”,“一些”

3.6【三声“有”】如“刻有”,“具有”

3.7【四声“在”】如“正在”

3.8【“自己”】如“他自己”

Chap 4 Common Collocations一些固定搭配

APPENDIX A 与其他guidelines的比较

APPENDIX B 宾州中文树库使用的词性表

猜你喜欢

转载自blog.csdn.net/tong_xin2010/article/details/81328070
今日推荐