Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载

Penn Treebank数据集介绍+句法分析parsed的基本语法+句法分析基础知识+NLP常用公开数据集汇总及下载

Penn Treebank数据集介绍

Penn Treebank是NLP中常用的PTB语料库,Penn Treebank是一个项目的名称,该项目对语料进行标注,标注内容包括:【词性标注】和【句法分析】。

  • 语料来源:1989年的华尔街日报
  • 语料规模:1M words,共2499片文章
  • 语料价格:1500~1700$

应用于NLTK工具下:

  1. tokenizing(分词)
  2. tagging(词性标注)
  3. chunking(分块)
  4. parsing(句法分析)
"""
treebank示例目录中包含的文件,分别为raw,tagged, parsed,combined。四个示例类型如下所示:
"""

猜你喜欢

转载自blog.csdn.net/weixin_42782150/article/details/127447013