语料库与语言知识库

语料库技术

语料库(corpus base)就是存放语言材料的数据库。那么,顾名思义,语料库语言学(corpus linguistics)就是
基于语料库进行语言学研究的一门学问。具体一点讲,语料库语言学是研究自然语言机读文本(或称“电子文本”)的采集、存储、标注、检索、统计等方法的一门学问,其目的是通过对客观存在的大规模真实文本中的语言事实进行定量分析,为语言学研究或自然语言处理系统开发提供支持。
语料库语言学研究的内容十分广泛,涉及语料库的建设和利用等多个方面,归纳起来,可以大致包括如下几方面的内容: ①语料库的建设与编纂;②语料库的加工和管理;③语料库的应用,包括在语言学研究(言语、词汇和语义研究等)中的应用和在自然语言处理中的应用。

语料库的类型

按语种划分可以分为单语种语料库和多语种语料库;按记载媒体不同可以分为单媒体语料库和多媒体语料库;按照地域区别可以分为国家语料库和国际语料库等。这里主要介绍以语料代表性和平衡性为主要区分依据的“平衡语料库与平行语料库”、以语料库用途为主要区分依据的“通用语料库与专用语料库”、以语料分布时间为主要区分依据的“共时语料库与历时语料库”和以语料库内容加工程度划分的“生语料与标注语料库”。

  1. 平衡语料库与平行语料库
    平衡语料库着重考虑的是语料的代表性与平衡性。张普(2003)曾经提出语料采集的七项原则:语料的真实性、语料的可靠性、语料的科学性、语料的代表性、语料的权威性、语料的分布性和语料的流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。
  2. 通用语料库与专用语料库
    所谓的通用语料库实际上与平衡语料库是从不同角度看问题的结果,或者说是与专用领域对举的结果。为了某种专门的目的,只采集某一特定领域、特定地区、特定时间、特定类型的语料构成的语料库就是专用语料库。例如,新闻语料库、科技语料库、中小学语料库、北京口语语料库等。
  3. 共时语料库与历时语料库
    所谓共时语料库是为了对语言进行共时研究而建立的语料库。按照索绪尔的观点,共时研究是指研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。无论所采集语料的时间段有多长,只要研究的是一个平面上的元素或元素的关系,就是共时研究,所建立的语料库就是共时语料库。
    所谓的历时语料库是为了对语言进行历时研究而建立的语料库。根据历时语料库得到的统计结果就不像共时语料库的统计结果是一个频次点,而是依据时间轴的等距离抽样得到的若干频次变化形成的演变曲线,我们把这种曲线称为变化“走势图”。
  4. 生语料与标注语料库
    所谓生语料是指没有经过任何加工处理的原始语料数据(corpora with raw data)。组织者只是简单地把语料收集起来,不加任何标注信息。
    标注语料库是指经过加工处理、标注了特定信息的语料库。根据加工程度不同,标注语料库又可以细分为分词语料库(主要指汉语)、分词与词性标注语料库、树库(tree bank)、命题库(proposition bank)、篇章树库(discourse tree bank等。

汉语语料库建设中的问题

  1. 语料库建设的规范问题
  2. 产权保护和国家语料库建设问题

典型语料库

  1. LDC中文树库
  2. 命题库、名词化树库和语篇库。命题库(PropBank)、名词化树库(NomBank)和语篇树库(Penn Discourse Tree Bank, PDTB)是宾夕法尼亚树库(Penn Tree Bank)的扩展。
  3. 布拉格依存树库
  4. BTEC口语语料
  5. 现代汉语口语语料库
  6. 台湾中研院语料库

语言知识库

“语言知识库”比“语料库”包含更广泛的内容。概括起来讲,语言知识库可分为两种不同的类型:一类是词典、规则库、语
义概念库等,其中的语言知识表示是显性的,可采用形式化结构描述;另一类语言知识存在于语料库之中,每个语言单位的出现,其范畴、意义、用法都是确定的。语料库的主体是文本,即语句的集合,每个语句都是线性的非结构化的文字序列,其中包含的知识都是隐性的。语料加工的目的就是要把隐性的知识显性化,以便于机器学习和引用。

  1. WordNet
  2. FrameNet
  3. EDR
  4. 北京大学综合型语言知识库
  5. 知网
  6. 概念层次网络
发布了304 篇原创文章 · 获赞 51 · 访问量 14万+

猜你喜欢

转载自blog.csdn.net/qq_39905917/article/details/99876329