日本语语料库

来自《日语语料库建设的现状综述》上海外国语大学 毛文伟 2009年

(1)EDR语料库(EDRコーパス)

该语料库由日本电子化辞书研究所开发,并于1995年推出。素材选自新闻报道和杂志, 规模为 20 万句, 另有 10 万
句左右的英语语料。在原始语料的基础上, 添加了句法信息, 是一个已赋码语料库。(http://www.iijnet.or.jp/edr/J_index.html)

(2) 京都大学语料库 (京都大学コーパス)
由京都大学长尾研究室开发。收录了日本 『毎日新聞』 光盘版1995年1月1日至1月17日的所有报道以及该年1月至12月的所有社论各约2万句。在此基础上, 运用语法信息自动解析技术, 添加形态素和句法信息, 并进行了人工修正。另外, 还对其中的5000句素材添加了格关系以及呼应等有关信息。 (http://www-nagao.kuee.kyoto-u.ac.jp/)

(3) 日语口语语料库(日本語話し言葉コーパス (CSJ) )
该语料库是作为 「話し言葉の言語的·パラ言語的構造の解析に基づく 『話し言葉工学』 の構築」 课题的一个组成部分, 由国立国语研究所、 通信综合研究所和东京工业大学联合研制的。其中包含约660小时的语音信息, 共计约700万词。其内容按照特别设计的方式记录下来, 有汉字假名混用和纯假名两个版本。还对这些文本进行了词性分析。从内容上看, 大部分为讲演和采访, 文体比较单一。(http://www2.kokken.go.jp/~csj/public/index_j.html)

(4) 太阳语料库 (太陽コーパス)
国立国语研究所推出的太阳语料库收录了1895 年、 1901 年、 1909 年、 1917 年、 1925 年刊登于博文馆发行的月刊 『太陽』 杂志上的3400篇作品,共计1450万字。所有语料都保存为xml文件形式,其中添加了各种语法信息。此外, 还提供了相应的 检 索 软 件 。(http://www.kokken. go.jp/lrc/index.php)

(5) 日本古典文学全文数据库(日本古典文学本文データベース)
该语料库收录了岩波书店旧版 『日本古典文学大系』 中的全部作品约580部, 目前由国文学研究 资 料 馆 管 理 。(http://base3.nijl.ac.jp/Rcgi-bin/hon_home.cgi)

(6) 中日对译语料库
中日对译语料库是北京日本学研究中心于2002年完成的一个双语平行语料库, 由中文原文子库、 日文原文子库、 中文译文字库和日文译文字库构成。收录的作品时间跨度很大, 既有 『坊っちゃん』(1906年)、 『蒲団』 (1907年) 等明治晚期作品, 也有『心の危機管理術』 (1993年)、 『五体不満足』 (1998年)等较新的著作。

(7) RWC文本数据库 (RWCテキストデータベース)
RWC 文本数据库是由日本新情报处理开发机构(新情報処理開発機構)推出的已赋码语料库, 收录了《日本的通商白皮书》、 日本电子工业振兴协会的报告书以及《每日新闻》1991 年至1995 年的所有报道。在形态素自动分析的基础上, 加以手工修正。此外, 还包含了岩波国语词典的赋码数据。
 

(8) IPA语料库 (IPAコーパス)
该语料库是由日本情报处理振兴事业协会(情報処理振興事業協会) 制作的研究用语料库。
其素材包括已公开的IPAL词典中收录的例句集约15000 句、 『日本語表現文型中級』 中的例句约 1600句、 面向外国留学生的中级日语教材、 岩波新书 13册 以 及 『岩波ジュニア新書』 7 册 中 的 内 容 约451000 句。日语教材和岩波新书部分进行了品词分析, 还对一部分内容进行了句法分析。

(9) ATR谈话数据库 (ATR対話データベース)
由日本国际电气通信基础技术研究所 (国際電気通信基礎技術研究所) 开发的这套口语语料库收录了关于参加国际会议的申请者和会务组的对话以及旅行社和客人之间的对话等内容, 规模约 80 万个形态素单位。所有素材都进行了品词和单词间相互关系的分析, 并附有英语对译。
 


 

猜你喜欢

转载自blog.csdn.net/huang_yx005/article/details/81661050
今日推荐