自然语言处理中语料库的理解

        语料库中存放的是在语言实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库(corpus,复数corpora)指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究

一、语料库的分类

确定语料库类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。可以把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;⑷专用的(Specialized):只收集用于某一特定用途的语料

除此之外,按照语料语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。已经累积了大量各种类型的语料库,如:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitlesCorpus)、Shortmessagesservice(SMS)corpus(短消息服务(SMS)语料)等

二、语料库的特征

1.语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;2.语料库是承载语言知识的基础资源,但并不等于语言知识;3.真实语料需要经过加工(分析和处理),才能成为有用的资源

猜你喜欢

转载自blog.csdn.net/qq_38984677/article/details/81189008