说明:宾州中文树库分词手册下载地址https://download.csdn.net/download/tong_xin2010/10576849
Chap1:Introduction
本文是Penn Chinese Treebank Project中的一篇文档。这个文档目标是对100-thousand的普通话材料进行句法结构分析(syntactic bracketing)。标注(annotation)的过程包括2个阶段:第一阶段是分词(word segmentation)+词性标注(Part-of-Speech tagging, POS);第二阶段是句法结构分析。以上2阶段的工作各自需要至少2轮处理:一个标注人先做一轮标注,然后另一个标注人检查标注结果。
分词手册(segmentation guidelines),词性标注手册(POS guidelines)和句法分析手册(bracketing guidelines)在project进行的过程中有过几次修改。
1.1 word的概念
尽管在其他语言中也存在这样的困难:定义什么是一个word,但在中文中,以下几个特殊性使得定义“word”的概念更加困难:列了4点中文的特殊之处。
本文从语言和工程两个角度综合考虑,定义一个word为“任何在语法上能被插入到X0位置的东西,既可能是单个单词,也可能是复合词”
1.2 test of wordhood
那么,如何判断一串汉字是一个word还是多个语素呢?以下列出了8条从不同研究者提出的分词规则:(见原文)。
这些规则都有用,但是又都不足以单独判断所有的复杂情况,所以本guideline的分词规则是上述多条规则的组合,但是不包括productivity test和frequency test。
1.3 Compatibility with other guidelines
我们研究了其他一些研究者的guidelines(见原文参考文献),并努力利用其中提到的准则。
因为宾州中文树库的输出是句法分析(syntactic bracketing),因此在分词时不会很严格,而是有一定灵活性。例如:“走上来”用一个参考guideline的原则应该分为2个部分,用另一个参考guideline会认为是一个词。在宾州中文树库中,将其分为2个部分,但构成一个复合词“(走/v 上来/V)/V”,这样的分法与以上2个参考的分词guideline都不冲突。各参考guideline和本guideline的差异在Appendix A中查阅。
我们的目标是:在最终的句法分析输出中,词的边界(the highest level X0 in the parsing tree)尽可能准确,内部的structure能作为连接到已存在的其他guideline的桥梁。
1.4 Treatment for unclear cases
对于2种不清晰的分词情况的说明
1.5 Organization of this guidelines
Chap2 Specifications
2.1【Common Noun——NN】:列举多种情况下一个汉字串是否定为1个word
详情见手册。这里举一例。
2.1.2 CD+N
“CD”和“N”的含义在 APPENDIX B 中查阅,“CD”为量词,“N”为名词
判断准则:如果在CD+N的结构中,可以插入一个单位在CD和N之间,并且意思不变,则判定为2个词:CD+N,例如:
如果在CD和N之间插入一个单位后意思改变了,则将CD+N判定为一个NN,例如:
2.2【Proper Noun——NR,专有名词】
2.3【Temporal Noun——NT,时间名词】
2.4【Localizer——LC,定位词】如“内”,“左右”
2.5【Pronoun——PN,代词】
2.6【Determiner——DT,限定词】如“这”,“全体”
2.7【Cardinal Number——CD,量词】
2.8【Ordinal Number——OD,次序词】如“第三十一”
2.9【Measure word——M,单位词】如“杯”
2.10【Verb:VA,VC,VE,VV,动词】
2.11【Adverb:AD,副词】如“近”,“极大”
2.12【Preposition:P,介词】如“随着”
2.13【Subordinating conjunctions:CS,从属连词】
2.14【Conjuctions:CC,连词】如“和”
2.15【Particle:DEC,DEG,DEV,DER,AS,SP,ETC,MSP,小品词】如“的话”
2.16【Interjections:IJ,感叹词】如“哈”
2.17【onomatopoeia:ON,拟声词】如“哗啦啦”
2.18【Other Noun-modifier:JJ】如“发稿/JJ 时间/NN”
2.19【Punctuation:PU,标点符号】
2.20【Foreign word:FW,外国词语】如“OK”
2.21【Others】包括idioms(习语),telescopic string(没明白什么意思),short form(缩写)
Chap3 Collocation with some morphemes:词语和某些语素的组合
3.1【轻声“着”】如“随着”
3.2【一声“之”】如“之外”,“之中”
3.3【四声“不”】如“不足”
3.4【四声“是”】如“特别是”
3.5【一声“些”】如“这些”,“一些”
3.6【三声“有”】如“刻有”,“具有”
3.7【四声“在”】如“正在”
3.8【“自己”】如“他自己”